AdamW - Glosarium AI

📖

istilah

Régularisation L2 découplée

Séparation de la décroissance des poids de la mise à jour du gradient pour appliquer la régularisation de manière indépendante de l'étape d'optimisation.

📖

istilah

Hyperparamètres beta1 et beta2

Coefficients contrôlant respectivement la décroissance exponentielle des moments du premier et second ordre dans l'algorithme AdamW.

📖

istilah

Moment du premier ordre

Moyenne mobile exponentielle des gradients capturant la direction moyenne de la descente pour accélérer la convergence dans les canyons d'erreur.

📖

istilah

Moment du second ordre

Moyenne mobile exponentielle des carrés des gradients estimant la variance pour adapter le taux d'apprentissage selon la courbure locale.

📖

istilah

Epsilon de stabilisation

Petite constante ajoutée au dénominateur pour éviter la division par zéro et assurer la stabilité numérique lors de la normalisation des gradients.

📖

istilah

Convergence asymptotique

Propriété théorique garantissant que l'algorithme atteint un point critique lorsque le nombre d'itérations tend vers l'infini sous certaines conditions.

📖

istilah

Décomposition du gradient

Séparation vectorielle du gradient en composantes de décroissance des poids et de mise à jour proprement dite dans l'implémentation d'AdamW.

📖

istilah

Biais de démarrage à froid

Problème d'estimation biaisée des moments lors des premières itérations dû à l'initialisation à zéro, corrigé par les facteurs de biais d'AdamW.

📖

istilah

Facteur de décroissance du poids

Paramètre lambda contrôlant l'intensité de la régularisation L2 découplée appliquée indépendamment à chaque mise à jour de poids.

📖

istilah

Normalisation adaptative

Division du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.

Glosarium AI

Régularisation L2 découplée

Hyperparamètres beta1 et beta2

Moment du premier ordre

Moment du second ordre

Epsilon de stabilisation

Convergence asymptotique

Décomposition du gradient

Biais de démarrage à froid

Facteur de décroissance du poids

Normalisation adaptative

Tidak ada hasil ditemukan