🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Momentum de Nesterov

Variante de l'algorithme de momentum qui applique une correction anticipée en calculant le gradient à la position future estimée, accélérant la convergence et réduisant les oscillations.

📖
termes

Adam (Adaptive Moment Estimation)

Algorithme d'optimisation combinant les idées de Momentum et RMSprop, utilisant des estimations des premier et second moments des gradients pour adapter les taux d'apprentissage de chaque paramètre.

📖
termes

AdaGrad

Optimiseur adaptatif qui ajuste le taux d'apprentissage de chaque paramètre en fonction de la somme historique des carrés de ses gradients, favorisant les paramètres peu fréquents.

📖
termes

AdaDelta

Extension d'AdaGrad qui limite la fenêtre d'accumulation des gradients passés à une taille fixe via une moyenne mobile glissante, évitant la décroissance agressive du taux d'apprentissage.

📖
termes

Decay du Taux d'Apprentissage

Stratégie de réduction progressive du taux d'apprentissage durant l'entraînement, souvent selon un calendrier prédéfini (step, exponential ou cosine), pour affiner la convergence vers un minimum.

📖
termes

Optimiseur LAMB (Layer-wise Adaptive Moments)

Algorithme d'optimisation conçu pour l'entraînement à grande échelle, adaptant le taux d'apprentissage par couche en utilisant la norme des poids et des gradients, efficace pour les très gros lots de données.

📖
termes

Optimiseur LARS (Layer-wise Adaptive Rate Scaling)

Méthode d'optimisation qui adapte le taux d'apprentissage pour chaque couche en fonction du ratio entre la norme des poids et la norme des gradients, particulièrement adaptée à l'entraînement avec de grands lots.

📖
termes

Lookahead Optimizer

Mécanisme d'optimisation qui met à jour périodiquement les poids 'lents' vers la moyenne des poids 'rapides' générés par un optimiseur interne, améliorant la généralisation et la stabilité de la convergence.

📖
termes

RAdam (Rectified Adam)

Variante d'Adam qui corrige la variance de l'adaptation du taux d'apprentissage dans les premières étapes de l'entraînement, offrant une convergence plus stable sans nécessiter de phase de warmup.

📖
termes

SWATS (Switching from Adam to SGD)

Stratégie qui commence l'entraînement avec un optimiseur adaptatif comme Adam pour une convergence rapide, puis bascule vers la Descente de Gradient Stochastique (SGD) pour une meilleure généralisation.

📖
termes

Optimiseur Yogi

Modification d'Adam visant à fournir une convergence plus stable en utilisant une mise à jour du second moment moins agressive, réduisant les oscillations et améliorant les performances sur les tâches complexes.

📖
termes

Shampoo

Optimiseur d'ordre deux qui préconditionne les gradients en utilisant des approximations de la matrice de Hessienne par blocs, accélérant la convergence pour les problèmes mal conditionnés.

📖
termes

Redécoupage du Taux d'Apprentissage (Learning Rate Restart)

Technique cyclique où le taux d'apprentissage est périodiquement réinitialisé à sa valeur initiale, permettant au modèle d'échapper à des minima locaux et d'explorer de nouvelles régions de l'espace des solutions.

🔍

Aucun résultat trouvé