Optimisation Profonde - Glossaire IA

📖

termes

Momentum de Nesterov

Variante de l'algorithme de momentum qui applique une correction anticipée en calculant le gradient à la position future estimée, accélérant la convergence et réduisant les oscillations.

📖

termes

Adam (Adaptive Moment Estimation)

Algorithme d'optimisation combinant les idées de Momentum et RMSprop, utilisant des estimations des premier et second moments des gradients pour adapter les taux d'apprentissage de chaque paramètre.

📖

termes

AdaGrad

Optimiseur adaptatif qui ajuste le taux d'apprentissage de chaque paramètre en fonction de la somme historique des carrés de ses gradients, favorisant les paramètres peu fréquents.

📖

termes

AdaDelta

Extension d'AdaGrad qui limite la fenêtre d'accumulation des gradients passés à une taille fixe via une moyenne mobile glissante, évitant la décroissance agressive du taux d'apprentissage.

📖

termes

Decay du Taux d'Apprentissage

Stratégie de réduction progressive du taux d'apprentissage durant l'entraînement, souvent selon un calendrier prédéfini (step, exponential ou cosine), pour affiner la convergence vers un minimum.

📖

termes

Optimiseur LAMB (Layer-wise Adaptive Moments)

Algorithme d'optimisation conçu pour l'entraînement à grande échelle, adaptant le taux d'apprentissage par couche en utilisant la norme des poids et des gradients, efficace pour les très gros lots de données.

📖

termes

Optimiseur LARS (Layer-wise Adaptive Rate Scaling)

Méthode d'optimisation qui adapte le taux d'apprentissage pour chaque couche en fonction du ratio entre la norme des poids et la norme des gradients, particulièrement adaptée à l'entraînement avec de grands lots.

📖

termes

Lookahead Optimizer

Mécanisme d'optimisation qui met à jour périodiquement les poids 'lents' vers la moyenne des poids 'rapides' générés par un optimiseur interne, améliorant la généralisation et la stabilité de la convergence.

📖

termes

RAdam (Rectified Adam)

Variante d'Adam qui corrige la variance de l'adaptation du taux d'apprentissage dans les premières étapes de l'entraînement, offrant une convergence plus stable sans nécessiter de phase de warmup.

📖

termes

SWATS (Switching from Adam to SGD)

Stratégie qui commence l'entraînement avec un optimiseur adaptatif comme Adam pour une convergence rapide, puis bascule vers la Descente de Gradient Stochastique (SGD) pour une meilleure généralisation.

📖

termes

Optimiseur Yogi

Modification d'Adam visant à fournir une convergence plus stable en utilisant une mise à jour du second moment moins agressive, réduisant les oscillations et améliorant les performances sur les tâches complexes.

📖

termes

Shampoo

Optimiseur d'ordre deux qui préconditionne les gradients en utilisant des approximations de la matrice de Hessienne par blocs, accélérant la convergence pour les problèmes mal conditionnés.

📖

termes

Redécoupage du Taux d'Apprentissage (Learning Rate Restart)

Technique cyclique où le taux d'apprentissage est périodiquement réinitialisé à sa valeur initiale, permettant au modèle d'échapper à des minima locaux et d'explorer de nouvelles régions de l'espace des solutions.

Glossaire IA

Momentum de Nesterov

Adam (Adaptive Moment Estimation)

AdaGrad

AdaDelta

Decay du Taux d'Apprentissage

Optimiseur LAMB (Layer-wise Adaptive Moments)

Optimiseur LARS (Layer-wise Adaptive Rate Scaling)

Lookahead Optimizer

RAdam (Rectified Adam)

SWATS (Switching from Adam to SGD)

Optimiseur Yogi

Shampoo

Redécoupage du Taux d'Apprentissage (Learning Rate Restart)

Aucun résultat trouvé