YZ Sözlüğü
Yapay Zekanın tam sözlüğü
Taux d'apprentissage adaptatif
Mécanisme d'ajustement automatique du taux d'apprentissage pendant l'entraînement, modifiant la magnitude des mises à jour des paramètres en fonction des caractéristiques locales du paysage de la fonction de coût.
Somme historique des carrés des gradients
Accumulation exponentielle des carrés des gradients passés utilisée dans Adagrad pour normaliser les mises à jour des paramètres, pénalisant les gradients élevés fréquents et favorisant les directions avec des gradients historiquement faibles.
Facteur d'échelle diagonal
Matrice diagonale préconditionnant le gradient dans Adagrad, dont chaque élément représente la racine carrée de la somme accumulée des carrés des gradients pour chaque paramètre individuel.
Fonction de coût convexe
Fonction objectif où toute ligne droite entre deux points de la surface se situe au-dessus de la surface, garantissant l'absence de minima locaux et la convergence globale des méthodes de descente de gradient.
Norme du gradient
Mesure de la magnitude du vecteur gradient, utilisée dans Adagrad pour déterminer si un paramètre a subi des mises à jour importantes historiquement et nécessite donc un ajustement de taux d'apprentissage adaptatif.
Espérance du carré du gradient
Estimation statistique de la moyenne à long terme des carrés des gradients, servant de base au calcul des facteurs d'échelle adaptatifs dans les optimiseurs de la famille Adagrad.
Vecteur de paramètres
Collection de toutes les variables optimisables d'un modèle, mise à jour itérativement par Adagrad avec des taux d'apprentissage individuellement adaptés pour chaque composante du vecteur.
Conditionnement mal posé
Situation où les échelles des gradients dans différentes directions varient considérablement, problème que Adagrad adresse spécifiquement en adaptant dynamiquement le taux d'apprentissage par dimension.
Biais de correction
Mécanisme dans Adam et variantes corrigeant l'estimation biaisée initiale des moments premiers et seconds due à l'initialisation zéro des moyennes mobiles exponentielles.
Hyperparamètre epsilon
Petite constante ajoutée au dénominateur dans Adagrad et variantes pour assurer la stabilité numérique en évitant la division par zéro lorsque la somme des carrés des gradients est très faible.