🏠 Home
Benchmark Hub
📊 All Benchmarks 🦖 Dinosaur v1 🦖 Dinosaur v2 ✅ To-Do List Applications 🎨 Creative Free Pages 🎯 FSACB - Ultimate Showcase 🌍 Translation Benchmark
Models
🏆 Top 10 Models 🆓 Free Models 📋 All Models ⚙️ Kilo Code
Resources
💬 Prompts Library 📖 AI Glossary 🔗 Useful Links

AI Glossary

The complete dictionary of Artificial Intelligence

162
categories
2,032
subcategories
23,060
terms
📖
terms

Taux d'apprentissage adaptatif

Mécanisme d'ajustement automatique du taux d'apprentissage pendant l'entraînement, modifiant la magnitude des mises à jour des paramètres en fonction des caractéristiques locales du paysage de la fonction de coût.

📖
terms

Somme historique des carrés des gradients

Accumulation exponentielle des carrés des gradients passés utilisée dans Adagrad pour normaliser les mises à jour des paramètres, pénalisant les gradients élevés fréquents et favorisant les directions avec des gradients historiquement faibles.

📖
terms

Facteur d'échelle diagonal

Matrice diagonale préconditionnant le gradient dans Adagrad, dont chaque élément représente la racine carrée de la somme accumulée des carrés des gradients pour chaque paramètre individuel.

📖
terms

Fonction de coût convexe

Fonction objectif où toute ligne droite entre deux points de la surface se situe au-dessus de la surface, garantissant l'absence de minima locaux et la convergence globale des méthodes de descente de gradient.

📖
terms

Norme du gradient

Mesure de la magnitude du vecteur gradient, utilisée dans Adagrad pour déterminer si un paramètre a subi des mises à jour importantes historiquement et nécessite donc un ajustement de taux d'apprentissage adaptatif.

📖
terms

Espérance du carré du gradient

Estimation statistique de la moyenne à long terme des carrés des gradients, servant de base au calcul des facteurs d'échelle adaptatifs dans les optimiseurs de la famille Adagrad.

📖
terms

Vecteur de paramètres

Collection de toutes les variables optimisables d'un modèle, mise à jour itérativement par Adagrad avec des taux d'apprentissage individuellement adaptés pour chaque composante du vecteur.

📖
terms

Conditionnement mal posé

Situation où les échelles des gradients dans différentes directions varient considérablement, problème que Adagrad adresse spécifiquement en adaptant dynamiquement le taux d'apprentissage par dimension.

📖
terms

Biais de correction

Mécanisme dans Adam et variantes corrigeant l'estimation biaisée initiale des moments premiers et seconds due à l'initialisation zéro des moyennes mobiles exponentielles.

📖
terms

Hyperparamètre epsilon

Petite constante ajoutée au dénominateur dans Adagrad et variantes pour assurer la stabilité numérique en évitant la division par zéro lorsque la somme des carrés des gradients est très faible.

🔍

No results found