🏠 Home
Benchmark
📊 Tutti i benchmark 🦖 Dinosauro v1 🦖 Dinosauro v2 ✅ App To-Do List 🎨 Pagine libere creative 🎯 FSACB - Ultimate Showcase 🌍 Benchmark traduzione
Modelli
🏆 Top 10 modelli 🆓 Modelli gratuiti 📋 Tutti i modelli ⚙️ Kilo Code
Risorse
💬 Libreria di prompt 📖 Glossario IA 🔗 Link utili

Glossario IA

Il dizionario completo dell'Intelligenza Artificiale

162
categorie
2.032
sottocategorie
23.060
termini
📖
termini

Régularisation L2 découplée

Séparation de la décroissance des poids de la mise à jour du gradient pour appliquer la régularisation de manière indépendante de l'étape d'optimisation.

📖
termini

Hyperparamètres beta1 et beta2

Coefficients contrôlant respectivement la décroissance exponentielle des moments du premier et second ordre dans l'algorithme AdamW.

📖
termini

Moment du premier ordre

Moyenne mobile exponentielle des gradients capturant la direction moyenne de la descente pour accélérer la convergence dans les canyons d'erreur.

📖
termini

Moment du second ordre

Moyenne mobile exponentielle des carrés des gradients estimant la variance pour adapter le taux d'apprentissage selon la courbure locale.

📖
termini

Epsilon de stabilisation

Petite constante ajoutée au dénominateur pour éviter la division par zéro et assurer la stabilité numérique lors de la normalisation des gradients.

📖
termini

Convergence asymptotique

Propriété théorique garantissant que l'algorithme atteint un point critique lorsque le nombre d'itérations tend vers l'infini sous certaines conditions.

📖
termini

Décomposition du gradient

Séparation vectorielle du gradient en composantes de décroissance des poids et de mise à jour proprement dite dans l'implémentation d'AdamW.

📖
termini

Biais de démarrage à froid

Problème d'estimation biaisée des moments lors des premières itérations dû à l'initialisation à zéro, corrigé par les facteurs de biais d'AdamW.

📖
termini

Facteur de décroissance du poids

Paramètre lambda contrôlant l'intensité de la régularisation L2 découplée appliquée indépendamment à chaque mise à jour de poids.

📖
termini

Normalisation adaptative

Division du gradient par la racine carrée de son moment du second ordre pour normaliser l'amplitude des mises à jour selon l'historique des gradients.

🔍

Nessun risultato trovato