एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
RMSprop
Technique d'optimisation adaptative qui divise le taux d'apprentissage par une moyenne mobile exponentielle des carrés des gradients récents pour gérer les gradients de grande magnitude.
Adagrad
Algorithme d'optimisation adaptatif qui adapte le taux d'apprentissage de chaque paramètre en accumulant les carrés des gradients historiques, favorisant les paramètres peu fréquents.
Adadelta
Extension de Adagrad qui résout le problème de décroissance drastique du taux d'apprentissage en limitant la fenêtre des gradients passés à une taille fixe via une moyenne mobile exponentielle.
Adamax
Variante d'Adam basée sur la norme infinie au lieu de la norme L2, offrant une plus grande stabilité numérique et une convergence plus robuste dans certains scénarios.
Nadam
Combinaison de Nesterov accelerated gradient et Adam qui intègre l'accélération de Nesterov dans le cadre adaptatif d'Adam pour une convergence plus rapide et plus stable.
AMSGrad
Modification d'Adam garantissant une convergence théorique en conservant le maximum des moyennes mobiles exponentielles au carré pour éviter les divergences potentielles d'Adam.
AdamW
Variante d'Adam qui découple la dégradation des poids (weight decay) de la mise à jour adaptative, appliquant la dégradation directement aux poids plutôt qu'aux gradients.
SGDW
Extension de SGD avec weight decay découplé qui applique la dégradation des poids indépendamment de la mise à jour par gradient pour une meilleure régularisation.
RAdam
Rectified Adam qui résout le problème de grande variance dans les phases d'entraînement initiales en introduisant un mécanisme de rectification adaptatif.
YellowFin
Optimiseur qui ajuste automatiquement le taux d'apprentissage et le coefficient de momentum en utilisant une analyse théorique de la convergence locale des méthodes du second ordre.
LARS
Layer-wise Adaptive Rate Scaling qui adapte le taux d'apprentissage par couche en fonction du rapport entre la norme L2 des poids et des gradients pour entraînements à grande échelle.
LAMB
Layer-wise Adaptive Moments optimizer for Batch training qui étend LARS en intégrant des statistiques adaptatives de type Adam pour un entraînement efficace de modèles massifs.
Rprop
Resilient Backpropagation qui adapte le taux d'apprentissage par paramètre en ignorant la magnitude du gradient et ne considérant que son signe pour des mises à jour robustes.
QHAdam
Quasi-Hyperbolic Adam qui généralise Adam et Momentum en introduisant des paramètres de quasi-hyperbolicité pour un contrôle fin de la contribution des moments.