AI Glossary

The complete dictionary of Artificial Intelligence

162

Régularisation L2 découplée

Séparation de la décroissance des poids de la mise à jour du gradient pour appliquer la régularisation de manière indépendante de l'étape d'optimisation.

📖

terms

Hyperparamètres beta1 et beta2

Coefficients contrôlant respectivement la décroissance exponentielle des moments du premier et second ordre dans l'algorithme AdamW.

📖

terms

Moment du premier ordre

Moyenne mobile exponentielle des gradients capturant la direction moyenne de la descente pour accélérer la convergence dans les canyons d'erreur.

📖

terms

Moment du second ordre

Moyenne mobile exponentielle des carrés des gradients estimant la variance pour adapter le taux d'apprentissage selon la courbure locale.

📖

terms

Epsilon de stabilisation

Petite constante ajoutée au dénominateur pour éviter la division par zéro et assurer la stabilité numérique lors de la normalisation des gradients.

📖

terms

Convergence asymptotique

Propriété théorique garantissant que l'algorithme atteint un point critique lorsque le nombre d'itérations tend vers l'infini sous certaines conditions.

📖

terms

Décomposition du gradient

Séparation vectorielle du gradient en composantes de décroissance des poids et de mise à jour proprement dite dans l'implémentation d'AdamW.

📖

terms

Biais de démarrage à froid

Problème d'estimation biaisée des moments lors des premières itérations dû à l'initialisation à zéro, corrigé par les facteurs de biais d'AdamW.

📖

terms

Facteur de décroissance du poids

Paramètre lambda contrôlant l'intensité de la régularisation L2 découplée appliquée indépendamment à chaque mise à jour de poids.

📖

terms

Normalisation adaptative

Division du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.

🔍

AI Glossary

Régularisation L2 découplée

Hyperparamètres beta1 et beta2

Moment du premier ordre

Moment du second ordre

Epsilon de stabilisation

Convergence asymptotique

Décomposition du gradient

Biais de démarrage à froid

Facteur de décroissance du poids

Normalisation adaptative

No results found