Adagrad - KI-Glossar

📖

Begriffe

Taux d'apprentissage adaptatif

Mécanisme d'ajustement automatique du taux d'apprentissage pendant l'entraînement, modifiant la magnitude des mises à jour des paramètres en fonction des caractéristiques locales du paysage de la fonction de coût.

📖

Begriffe

Somme historique des carrés des gradients

Accumulation exponentielle des carrés des gradients passés utilisée dans Adagrad pour normaliser les mises à jour des paramètres, pénalisant les gradients élevés fréquents et favorisant les directions avec des gradients historiquement faibles.

📖

Begriffe

Facteur d'échelle diagonal

Matrice diagonale préconditionnant le gradient dans Adagrad, dont chaque élément représente la racine carrée de la somme accumulée des carrés des gradients pour chaque paramètre individuel.

📖

Begriffe

Fonction de coût convexe

Fonction objectif où toute ligne droite entre deux points de la surface se situe au-dessus de la surface, garantissant l'absence de minima locaux et la convergence globale des méthodes de descente de gradient.

📖

Begriffe

Norme du gradient

Mesure de la magnitude du vecteur gradient, utilisée dans Adagrad pour déterminer si un paramètre a subi des mises à jour importantes historiquement et nécessite donc un ajustement de taux d'apprentissage adaptatif.

📖

Begriffe

Espérance du carré du gradient

Estimation statistique de la moyenne à long terme des carrés des gradients, servant de base au calcul des facteurs d'échelle adaptatifs dans les optimiseurs de la famille Adagrad.

📖

Begriffe

Vecteur de paramètres

Collection de toutes les variables optimisables d'un modèle, mise à jour itérativement par Adagrad avec des taux d'apprentissage individuellement adaptés pour chaque composante du vecteur.

📖

Begriffe

Conditionnement mal posé

Situation où les échelles des gradients dans différentes directions varient considérablement, problème que Adagrad adresse spécifiquement en adaptant dynamiquement le taux d'apprentissage par dimension.

📖

Begriffe

Biais de correction

Mécanisme dans Adam et variantes corrigeant l'estimation biaisée initiale des moments premiers et seconds due à l'initialisation zéro des moyennes mobiles exponentielles.

📖

Begriffe

Hyperparamètre epsilon

Petite constante ajoutée au dénominateur dans Adagrad et variantes pour assurer la stabilité numérique en évitant la division par zéro lorsque la somme des carrés des gradients est très faible.

KI-Glossar

Taux d'apprentissage adaptatif

Somme historique des carrés des gradients

Facteur d'échelle diagonal

Fonction de coût convexe

Norme du gradient

Espérance du carré du gradient

Vecteur de paramètres

Conditionnement mal posé

Biais de correction

Hyperparamètre epsilon

Keine Ergebnisse gefunden