🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Fisher Information Matrix

Matrice qui mesure la quantité d'information qu'un observable aléatoire porte sur un paramètre inconnu, utilisée dans TRPO pour définir la géométrie de l'espace des paramètres.

📖
termes

KL Divergence

Mesure de dissimilarité entre deux distributions de probabilités, utilisée dans TRPO comme contrainte pour limiter l'écart entre les politiques successives.

📖
termes

Conjugate Gradient

Algorithme d'optimisation itératif utilisé dans TRPO pour résoudre efficacement les systèmes linéaires dans la direction de descente du gradient naturel.

📖
termes

Line Search

Procédure d'optimisation qui ajuste la taille du pas pour garantir que la mise à jour respecte les contraintes de la région de confiance dans TRPO.

📖
termes

Monotonic Improvement Theory

Théorie garantissant qu'une politique mise à jour avec TRPO améliore toujours ou maintient la performance attendue sous certaines conditions de région de confiance.

📖
termes

Reward-to-go

Estimateur de la fonction de valeur qui utilise uniquement les récompenses futures après un timestep donné pour réduire la variance dans l'estimation du gradient.

📖
termes

Sample Efficiency

Mesure de l'efficacité d'un algorithme d'apprentissage par renforcement à utiliser les données collectées, TRPO étant connu pour sa bonne efficacité d'échantillonnage.

📖
termes

On-policy Learning

Paradigme d'apprentissage où les données collectées doivent provenir de la politique actuelle, caractéristique fondamentale de TRPO contrairement aux méthodes off-policy.

🔍

Aucun résultat trouvé