AdaDelta - AI-ordlista

📖

termer

Accumulation Historique

Processus consistant à stocker et cumuler les informations des gradients passés pour adapter dynamiquement les taux d'apprentissage. Dans AdaDelta, cette accumulation est limitée à une fenêtre glissante pour éviter la décroissance infinie du taux d'apprentissage.

📖

termer

Facteur de Décroissance

Paramètre (typiquement entre 0.9 et 0.999) contrôlant la vitesse à laquelle l'influence des gradients passés diminue exponentiellement. Ce facteur détermine la taille effective de la fenêtre glissante dans les algorithmes adaptatifs comme AdaDelta.

📖

termer

Normalisation du Gradient

Processus de mise à l'échelle des gradients en utilisant des statistiques historiques pour stabiliser l'entraînement. AdaDelta normalise les gradients en les divisant par la racine carrée de la moyenne mobile de leurs carrés.

📖

termer

Unités Consistantes

Principe fondamental d'AdaDelta où les mises à jour ont les mêmes unités que les paramètres, éliminant le besoin d'un taux d'apprentissage global. Cette approche utilise le ratio entre les moyennes mobiles des mises à jour passées et des gradients actuels.

📖

termer

Mise à Échelle des Paramètres

Processus d'ajustement dynamique de l'amplitude des mises à jour pour chaque paramètre en fonction de leur historique de gradients. AdaDelta utilise la moyenne mobile des mises à jour passées pour déterminer cette échelle adaptative.

📖

termer

Conditions de Convergence

Critères mathématiques garantissant qu'un algorithme d'optimisation atteindra un optimum local ou global. Les algorithmes adaptatifs comme AdaDelta modifient ces conditions en changeant dynamiquement la direction et la magnitude des pas d'optimisation.

📖

termer

État d'Optimisation

Informations supplémentaires stockées par les algorithmes adaptatifs pour calculer les mises à jour futures. AdaDelta maintient deux états : la moyenne mobile des carrés des gradients et celle des carrés des mises à jour.

📖

termer

Hyperparamètre de Rho

Paramètre unique d'AdaDelta (généralement fixé à 0.95) contrôlant la vitesse de décroissance exponentielle de la fenêtre glissante. Ce paramètre détermine l'équilibre entre information récente et historique dans les calculs de mise à jour.

AI-ordlista

Accumulation Historique

Facteur de Décroissance

Normalisation du Gradient

Unités Consistantes

Mise à Échelle des Paramètres

Conditions de Convergence

État d'Optimisation

Hyperparamètre de Rho

Inga resultat hittades