AI-woordenlijst
Het complete woordenboek van kunstmatige intelligentie
Régularisation L2 découplée
Séparation de la décroissance des poids de la mise à jour du gradient pour appliquer la régularisation de manière indépendante de l'étape d'optimisation.
Hyperparamètres beta1 et beta2
Coefficients contrôlant respectivement la décroissance exponentielle des moments du premier et second ordre dans l'algorithme AdamW.
Moment du premier ordre
Moyenne mobile exponentielle des gradients capturant la direction moyenne de la descente pour accélérer la convergence dans les canyons d'erreur.
Moment du second ordre
Moyenne mobile exponentielle des carrés des gradients estimant la variance pour adapter le taux d'apprentissage selon la courbure locale.
Epsilon de stabilisation
Petite constante ajoutée au dénominateur pour éviter la division par zéro et assurer la stabilité numérique lors de la normalisation des gradients.
Convergence asymptotique
Propriété théorique garantissant que l'algorithme atteint un point critique lorsque le nombre d'itérations tend vers l'infini sous certaines conditions.
Décomposition du gradient
Séparation vectorielle du gradient en composantes de décroissance des poids et de mise à jour proprement dite dans l'implémentation d'AdamW.
Biais de démarrage à froid
Problème d'estimation biaisée des moments lors des premières itérations dû à l'initialisation à zéro, corrigé par les facteurs de biais d'AdamW.
Facteur de décroissance du poids
Paramètre lambda contrôlant l'intensité de la régularisation L2 découplée appliquée indépendamment à chaque mise à jour de poids.
Normalisation adaptative
Division du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.