Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
RMSprop
Méthode d'optimisation adaptative qui utilise une moyenne mobile pondérée du carré des gradients pour normaliser le taux d'apprentissage, empêchant ainsi les oscillations et accélérant la convergence.
AdaGrad
Algorithme d'optimisation qui adapte le taux d'apprentissage de chaque paramètre en fonction de la somme historique des carrés des gradients, permettant des mises à jour plus grandes pour les paramètres peu fréquents.
AdaDelta
Extension d'AdaGrad qui résout le problème de la décroissance monotone du taux d'apprentissage en utilisant une fenêtre glissante de gradients passés plutôt que la somme cumulée.
Weight Decay
Méthode de régularisation qui pénalise les poids importants en ajoutant un terme L2 à la fonction de perte, aidant à prévenir le surapprentissage et améliorant la généralisation.
Beta Parameters (Adam)
Hyperparamètres β1 et β2 contrôlant respectivement les taux d'amortissement exponentiel pour la moyenne mobile du gradient (moment du premier ordre) et sa variance (moment du second ordre).
Bias Correction
Mécanisme dans Adam qui corrige le biais initial des estimations de moments vers zéro, garantissant des estimations non biaisées particulièrement importantes aux premiers pas d'entraînement.
Exponential Moving Average (EMA)
Technique de lissage qui attribue plus de poids aux observations récentes, utilisée dans les optimisateurs adaptatifs pour estimer les moments des gradients.
YOGI
Variante d'Adam qui utilise un contrôleur de variance adaptatif pour stabiliser l'entraînement, particulièrement efficace lorsque les données présentent des distributions non stationnaires ou des gradients bruyants.
Cyclical Learning Rates
Stratégie qui fait varier le taux d'apprentissage de manière cyclique entre des bornes minimales et maximales, permettant au modèle d'échapper aux minima locaux et d'explorer différents bassins d'attraction.