Momentum-based Optimization

📖

termes

RMSprop

Technique d'optimisation adaptative qui divise le taux d'apprentissage par une moyenne mobile exponentielle des carrés des gradients récents pour gérer les gradients de grande magnitude.

📖

termes

Adagrad

Algorithme d'optimisation adaptatif qui adapte le taux d'apprentissage de chaque paramètre en accumulant les carrés des gradients historiques, favorisant les paramètres peu fréquents.

📖

termes

Adadelta

Extension de Adagrad qui résout le problème de décroissance drastique du taux d'apprentissage en limitant la fenêtre des gradients passés à une taille fixe via une moyenne mobile exponentielle.

📖

termes

Adamax

Variante d'Adam basée sur la norme infinie au lieu de la norme L2, offrant une plus grande stabilité numérique et une convergence plus robuste dans certains scénarios.

📖

termes

Nadam

Combinaison de Nesterov accelerated gradient et Adam qui intègre l'accélération de Nesterov dans le cadre adaptatif d'Adam pour une convergence plus rapide et plus stable.

📖

termes

AMSGrad

Modification d'Adam garantissant une convergence théorique en conservant le maximum des moyennes mobiles exponentielles au carré pour éviter les divergences potentielles d'Adam.

📖

termes

AdamW

Variante d'Adam qui découple la dégradation des poids (weight decay) de la mise à jour adaptative, appliquant la dégradation directement aux poids plutôt qu'aux gradients.

📖

termes

SGDW

Extension de SGD avec weight decay découplé qui applique la dégradation des poids indépendamment de la mise à jour par gradient pour une meilleure régularisation.

📖

termes

RAdam

Rectified Adam qui résout le problème de grande variance dans les phases d'entraînement initiales en introduisant un mécanisme de rectification adaptatif.

📖

termes

YellowFin

Optimiseur qui ajuste automatiquement le taux d'apprentissage et le coefficient de momentum en utilisant une analyse théorique de la convergence locale des méthodes du second ordre.

📖

termes

LARS

Layer-wise Adaptive Rate Scaling qui adapte le taux d'apprentissage par couche en fonction du rapport entre la norme L2 des poids et des gradients pour entraînements à grande échelle.

📖

termes

LAMB

Layer-wise Adaptive Moments optimizer for Batch training qui étend LARS en intégrant des statistiques adaptatives de type Adam pour un entraînement efficace de modèles massifs.

📖

termes

Rprop

Resilient Backpropagation qui adapte le taux d'apprentissage par paramètre en ignorant la magnitude du gradient et ne considérant que son signe pour des mises à jour robustes.

📖

termes

QHAdam

Quasi-Hyperbolic Adam qui généralise Adam et Momentum en introduisant des paramètres de quasi-hyperbolicité pour un contrôle fin de la contribution des moments.

Glossaire IA

RMSprop

Adagrad

Adadelta

Adamax

Nadam

AMSGrad

AdamW

SGDW

RAdam

YellowFin

LARS

LAMB

Rprop

QHAdam

Aucun résultat trouvé