🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Apprentissage par Renforcement Inverse

Méthode d'apprentissage où l'agent infère la fonction de récompense à partir des démonstrations d'experts plutôt que de recevoir des récompenses explicites.

📖
termes

Maximum Entropy IRL

Variante de l'IRL qui suppose que l'expert suit la distribution de probabilité de plus grande entropie parmi toutes les politiques optimales.

📖
termes

Apprentissage Comportemental

Approche d'apprentissage supervisé qui apprend directement à imiter les actions de l'expert sans inférer explicitement la fonction de récompense.

📖
termes

Trajectoire d'Expert

Séquence d'états et d'actions observées chez un expert, représentant une solution optimale ou quasi-optimale du problème.

📖
termes

Équivalence de Politique

Principe selon lequel plusieurs fonctions de récompense peuvent conduire à la même politique optimale, créant une ambiguïté dans l'IRL.

📖
termes

Apprentissage par Renforcement Inverse Bayésien

Approche IRL utilisant l'inférence bayésienne pour estimer une distribution sur les fonctions de récompense possibles.

📖
termes

Coût de Préférence

Transformation de la fonction de récompense en fonction de coût, où l'agent apprend à minimiser le coût total tout en suivant les démonstrations.

📖
termes

Apprentissage par Renforcement Inverse Adversarial

Méthode IRL utilisant un jeu adversarial où un générateur apprend la politique et un discriminateur distingue les trajectoires expertes.

📖
termes

Apprentissage par Renforcement Inverse Actif

Variante de l'IRL où l'agent peut interroger l'expert pour obtenir des démonstrations supplémentaires et réduire l'incertitude.

📖
termes

Inférence de Fonction Objectif

Processus mathématique de déduction de la fonction objectif sous-jacente à partir des observations du comportement de l'expert.

📖
termes

Biais d'Imitation

Tendance de l'agent à sur-imiter les actions de l'expert sans comprendre l'intention sous-jacente, conduisant à des généralisations médiocres.

📖
termes

Apprentissage par Renforcement avec Retour d'Expert

Combinaison de RL et IRL où un modèle entraîne d'abord sur des données expertes, puis est affiné avec du retour humain.

📖
termes

Fonction Caractéristique

Fonction qui mappe les états-actions à un espace de caractéristiques, utilisée pour représenter la fonction de récompense de manière linéaire.

📖
termes

Apprentissage par Renforcement Inverse Multi-tâches

Extension de l'IRL où plusieurs tâches sont apprises simultanément en partageant des connaissances entre les fonctions de récompense.

🔍

Aucun résultat trouvé