YZ Sözlüğü
Yapay Zekanın tam sözlüğü
Adagrad
Algorithme d'optimisation adaptatif qui ajuste dynamiquement le taux d'apprentissage pour chaque paramètre en fonction de l'historique des gradients accumulés. Il permet des mises à jour plus grandes pour les paramètres peu fréquents et plus petites pour ceux fréquents.
RMSprop
Méthode d'optimisation qui résout le problème de décroissance excessive du taux d'apprentissage d'Adagrad en utilisant une moyenne mobile exponentielle des carrés des gradients. RMSprop maintient un taux d'apprentissage adaptatif sans décroissance drastique.
Décroissance du taux d'apprentissage
Technique de régularisation qui réduit progressivement le taux d'apprentissage pendant l'entraînement pour permettre une convergence plus fine vers l'optimum. La décroissance aide à stabiliser l'optimisation dans les phases finales d'apprentissage.
Bruit de gradient
Variabilité statistique inhérente aux estimations de gradient dans les méthodes stochastiques due à l'échantillonnage aléatoire des données. Le bruit peut aider à échapper aux minima locaux mais nécessite des techniques pour contrôler sa variance.
Variance du gradient
Mesure de la dispersion des estimations de gradient dans les méthodes stochastiques, influençant directement la stabilité de l'optimisation. La réduction de variance est un objectif clé pour améliorer l'efficacité des algorithmes stochastiques.
Taille de batch
Nombre d'échantillons utilisés pour calculer chaque estimation de gradient dans les méthodes mini-batch. La taille de batch influence le compromis entre efficacité computationnelle, qualité de l'estimation du gradient et généralisation.
Époque
Cycle complet d'entraînement où chaque échantillon de l'ensemble de données a été utilisé exactement une fois pour mettre à jour les paramètres. Les époques permettent de structurer l'entraînement et surveiller la progression de l'apprentissage.
Méthode de Robbins-Monro
Algorithme fondamental d'approximation stochastique qui converge vers les zéros d'une fonction en utilisant des observations bruitées et des pas décroissants. Cette méthode constitue la base théorique de la descente de gradient stochastique moderne.