Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apprentissage par Imitation Basé sur Modèle
Approche où l'agent apprend d'abord un modèle dynamique de l'environnement, puis utilise ce modèle pour planifier et généraliser les comportements imités à partir de démonstrations d'experts.
Modèle Dynamique
Représentation mathématique apprenant la transition d'état de l'environnement, c'est-à-dire la probabilité P(s'|s, a) d'atteindre un nouvel état s' en effectuant une action a depuis un état s.
Inférence par Raisonnement à la Contre-factuelle
Méthode d'inférence de la fonction de récompense de l'expert en comparant les trajectoires démontrées à des trajectoires contrefactuelles proches pour identifier les préférences de l'expert.
Planification par Modèle
Processus d'utilisation du modèle dynamique et de récompense appris pour simuler différentes séquences d'actions et choisir la politique optimale sans interaction directe avec l'environnement réel.
Généralisation par Modèle
Capacité d'un agent basé sur un modèle à adapter les comportements imités à de nouvelles situations non vues dans les démonstrations, en simulant des scénarios hypothétiques grâce à son modèle de l'environnement.
Apprentissage Inverse du Renforcement (IRL)
Processus qui consiste à déduire la fonction de récompense sous-jacente d'un expert à partir de ses démonstrations, fournissant un signal dense pour l'entraînement de l'agent par renforcement.
Rétro-propagation à travers le Temps (BPTT)
Algorithme utilisé pour entraîner des modèles dynamiques récurrents, où les gradients de la perte sont calculés en rétro-propageant les erreurs à travers les pas de temps de la trajectoire simulée.
Optimisation de Trajectoire
Classe d'algorithmes de planification qui améliorent itérativement une trajectoire entière en utilisant les gradients du modèle de récompense et du modèle dynamique, par opposition aux méthodes basées sur la valeur.
Apprentissage par Imitation Comportemental (BC)
Approche d'apprentissage supervisé qui modélise directement la politique de l'expert π(a|s) en minimisant l'erreur entre les actions de l'agent et les actions de l'expert pour les états donnés.
Hybride BC-Model-Based
Architecture combinant un modèle comportemental pour l'imitation directe et un modèle de l'environnement pour la planification, où les deux contributions sont fusionnées pour produire l'action finale de l'agent.