एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
Momentum classique
Technique d'optimisation qui accumule les gradients passés avec un facteur de décroissance pour créer une inertie dans les mises à jour de poids. Cette approche permet d'accélérer la convergence dans les directions constantes tout en amortissant les oscillations.
Facteur de momentum (beta)
Paramètre hypermétrique contrôlant l'influence des gradients précédents sur la mise à jour actuelle, typiquement fixé entre 0.9 et 0.99. Une valeur plus élevée augmente l'inertie et stabilise la trajectoire d'optimisation dans les vallées étroites.
Vélocité de gradient
Vecteur accumulant les gradients pondérés des itérations précédentes, représentant la direction et la vitesse de descente dans l'espace des paramètres. La vélocité est mise à jour à chaque itération par une combinaison linéaire du gradient actuel et de la vélocité précédente.
Inertie dans l'optimisation
Phénomène physique analogique où les mises à jour de paramètres conservent une partie de leur élan précédent, permettant de franchir les plateaux et les minima locaux peu profonds. L'inertie est particulièrement efficace pour naviguer dans les paysages de perte complexes et non convexes.
Oscillations amorties
Réduction progressive des fluctuations autour de la direction optimale de descente grâce à l'accumulation de momentum dans les directions consistantes. Ce mécanisme stabilise particulièrement l'optimisation dans les vallées étroites où les gradients sont fortement corrélés.
Momentum adaptatif
Extension du momentum où le facteur d'inertie est ajusté dynamiquement en fonction des caractéristiques locales du paysage d'optimisation. Cette adaptation permet un équilibre optimal entre exploration et exploitation selon la géométrie de la surface de perte.
Historique des gradients
Mémoire des gradients précédents utilisée pour calculer la direction de mise à jour actuelle, permettant de capturer les tendances à long terme de la descente. L'historique exponentiellement pondéré privilégie les gradients récents tout en conservant l'information des itérations antérieures.
Masse virtuelle
Concept analogique représentant la résistance au changement dans la trajectoire d'optimisation, contrôlée par le facteur de momentum. Une masse virtuelle élevée produit des mouvements plus fluides et moins sensibles aux bruits de gradient instantanés.
Force de friction
Mécanisme de régularisation implicite dans le momentum qui contrebalance l'accélération pour éviter la divergence, généralement implémenté via le facteur (1-beta). Cette force assure la stabilité numérique et garantit la convergence vers des minima significatifs.
Momentum stochastique
Application du momentum dans l'optimisation stochastique où les gradients bruités sont moyennés temporellement pour réduire la variance des estimations. Cette technique est particulièrement efficace dans l'entraînement sur de grands jeux de données avec des mini-batchs.
Momentum par mini-batch
Stratégie où la vélocité est mise à jour après chaque mini-batch plutôt qu'après chaque échantillon individuel, offrant un compromis entre stabilité et coût computationnel. Cette approche permet une meilleure généralisation tout en maintenant les bénéfices du momentum.
Décroissance du momentum
Technique d'ajustement du facteur de momentum pendant l'entraînement, typiquement en le réduisant progressivement pour affiner la convergence finale. Cette stratégie combine exploration rapide en début d'entraînement et précision en fin d'optimisation.
Momentum cyclique
Variation périodique du facteur de momentum synchronisée avec les cycles d'apprentissage pour échapper aux minima locaux et explorer l'espace des solutions. Cette approche est souvent combinée avec des taux d'apprentissage cycliques pour une optimisation globale améliorée.
Momentum warm-up
Phase initiale d'entraînement où le facteur de momentum est progressivement augmenté depuis zéro pour éviter les instabilités des premières itérations. Cette technique permet une stabilisation progressive de l'optimisation dans les réseaux profonds.