🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

Apprentissage par Imitation Basé sur Modèle

Approche où l'agent apprend d'abord un modèle dynamique de l'environnement, puis utilise ce modèle pour planifier et généraliser les comportements imités à partir de démonstrations d'experts.

📖
termes

Modèle Dynamique

Représentation mathématique apprenant la transition d'état de l'environnement, c'est-à-dire la probabilité P(s'|s, a) d'atteindre un nouvel état s' en effectuant une action a depuis un état s.

📖
termes

Inférence par Raisonnement à la Contre-factuelle

Méthode d'inférence de la fonction de récompense de l'expert en comparant les trajectoires démontrées à des trajectoires contrefactuelles proches pour identifier les préférences de l'expert.

📖
termes

Planification par Modèle

Processus d'utilisation du modèle dynamique et de récompense appris pour simuler différentes séquences d'actions et choisir la politique optimale sans interaction directe avec l'environnement réel.

📖
termes

Généralisation par Modèle

Capacité d'un agent basé sur un modèle à adapter les comportements imités à de nouvelles situations non vues dans les démonstrations, en simulant des scénarios hypothétiques grâce à son modèle de l'environnement.

📖
termes

Apprentissage Inverse du Renforcement (IRL)

Processus qui consiste à déduire la fonction de récompense sous-jacente d'un expert à partir de ses démonstrations, fournissant un signal dense pour l'entraînement de l'agent par renforcement.

📖
termes

Rétro-propagation à travers le Temps (BPTT)

Algorithme utilisé pour entraîner des modèles dynamiques récurrents, où les gradients de la perte sont calculés en rétro-propageant les erreurs à travers les pas de temps de la trajectoire simulée.

📖
termes

Optimisation de Trajectoire

Classe d'algorithmes de planification qui améliorent itérativement une trajectoire entière en utilisant les gradients du modèle de récompense et du modèle dynamique, par opposition aux méthodes basées sur la valeur.

📖
termes

Apprentissage par Imitation Comportemental (BC)

Approche d'apprentissage supervisé qui modélise directement la politique de l'expert π(a|s) en minimisant l'erreur entre les actions de l'agent et les actions de l'expert pour les états donnés.

📖
termes

Hybride BC-Model-Based

Architecture combinant un modèle comportemental pour l'imitation directe et un modèle de l'environnement pour la planification, où les deux contributions sont fusionnées pour produire l'action finale de l'agent.

🔍

Aucun résultat trouvé