Méthodes de Gradient Stochastique

📖

Begriffe

Adagrad

Algorithme d'optimisation adaptatif qui ajuste dynamiquement le taux d'apprentissage pour chaque paramètre en fonction de l'historique des gradients accumulés. Il permet des mises à jour plus grandes pour les paramètres peu fréquents et plus petites pour ceux fréquents.

📖

Begriffe

RMSprop

Méthode d'optimisation qui résout le problème de décroissance excessive du taux d'apprentissage d'Adagrad en utilisant une moyenne mobile exponentielle des carrés des gradients. RMSprop maintient un taux d'apprentissage adaptatif sans décroissance drastique.

📖

Begriffe

Décroissance du taux d'apprentissage

Technique de régularisation qui réduit progressivement le taux d'apprentissage pendant l'entraînement pour permettre une convergence plus fine vers l'optimum. La décroissance aide à stabiliser l'optimisation dans les phases finales d'apprentissage.

📖

Begriffe

Bruit de gradient

Variabilité statistique inhérente aux estimations de gradient dans les méthodes stochastiques due à l'échantillonnage aléatoire des données. Le bruit peut aider à échapper aux minima locaux mais nécessite des techniques pour contrôler sa variance.

📖

Begriffe

Variance du gradient

Mesure de la dispersion des estimations de gradient dans les méthodes stochastiques, influençant directement la stabilité de l'optimisation. La réduction de variance est un objectif clé pour améliorer l'efficacité des algorithmes stochastiques.

📖

Begriffe

Taille de batch

Nombre d'échantillons utilisés pour calculer chaque estimation de gradient dans les méthodes mini-batch. La taille de batch influence le compromis entre efficacité computationnelle, qualité de l'estimation du gradient et généralisation.

📖

Begriffe

Époque

Cycle complet d'entraînement où chaque échantillon de l'ensemble de données a été utilisé exactement une fois pour mettre à jour les paramètres. Les époques permettent de structurer l'entraînement et surveiller la progression de l'apprentissage.

📖

Begriffe

Méthode de Robbins-Monro

Algorithme fondamental d'approximation stochastique qui converge vers les zéros d'une fonction en utilisant des observations bruitées et des pas décroissants. Cette méthode constitue la base théorique de la descente de gradient stochastique moderne.

KI-Glossar

Adagrad

RMSprop

Décroissance du taux d'apprentissage

Bruit de gradient

Variance du gradient

Taille de batch

Époque

Méthode de Robbins-Monro

Keine Ergebnisse gefunden