Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Apprentissage par Renforcement Inverse Basé sur Modèles
Une approche qui infère une fonction de récompense à partir de démonstrations expertes en utilisant un modèle de l'environnement pour générer et évaluer des trajectoires alternatives plausibles.
Inférence de Fonction de Récompense
Le processus d'estimation de la fonction de récompense sous-jacente d'un agent en observant son comportement, souvent formulé comme un problème d'optimisation de la vraisemblance des trajectoires démontrées.
Modèle de Dynamique Environnemental
Un modèle appris qui prédit l'état suivant et la récompense étant donné un état et une action actuels, utilisé pour simuler des trajectoires dans l'apprentissage par renforcement basé sur modèle.
Génération de Trajectoires Plausibles
L'utilisation d'un modèle environnemental pour créer des séquences d'états-actions qui sont cohérentes avec la dynamique du système et les politiques observées, servant de données synthétiques pour l'inférence.
Biais d'Imitation
Tendance d'un agent appris par renforcement inverse à sur-imiter les actions démontrées sans généraliser à des états non vus, nécessitant l'utilisation de modèles pour explorer au-delà des données expertes.
Optimisation de la Vraisemblance des Trajectoires
Méthode d'ajustement de la fonction de récompense pour maximiser la probabilité que les trajectoires expertes observées soient optimales sous la récompense inférée.
Fonction de Récompense Ambiguë
Problème où plusieurs fonctions de récompense différentes peuvent expliquer de manière équivalente les mêmes démonstrations expertes, nécessitant des contraintes ou des a priori pour résoudre l'ambiguïté.
Ensemble de Trajectoires Synthétiques
Collection de trajectoires générées par le modèle environnemental, utilisée pour enrichir les données de démonstration et améliorer la robustesse de l'inférence de la récompense.
Erreur de Modèle Environnemental
Écart entre la dynamique réelle de l'environnement et celle prédite par le modèle appris, qui peut biaiser l'inférence de la récompense si non corrigée.
Rétropropagation à travers le Modèle
Technique de calcul des gradients de la fonction de récompense par rapport à ses paramètres en propageant l'erreur à travers le modèle de dynamique différentiable.
Espace des Politiques
Ensemble de toutes les politiques possibles π(a|s) que l'agent peut adopter, dans lequel l'inférence par renforcement inverse cherche à identifier la politique optimale compatible avec les démonstrations.
Planification Monte Carlo sur Modèle
Méthode utilisant des simulations stochastiques du modèle environnemental pour évaluer différentes fonctions de récompense candidates et sélectionner celle qui explique le mieux les démonstrations.
Fonction de Coût de Régularisation
Terme ajouté à l'objectif d'inférence pour pénaliser les fonctions de récompense complexes ou irréalistes, favorisant des solutions plus simples et généralisables.
Distribution Postérieure sur les Récompenses
Approche bayésienne qui maintient une distribution de probabilité sur les fonctions de récompense possibles plutôt qu'une estimation ponctuelle, permettant de quantifier l'incertitude.
Horizon de Simulation
Nombre maximal d'étapes futures simulées par le modèle environnemental lors de la génération de trajectoires, influençant l'équilibre entre exploration et coût computationnel.
Échantillonnage d'Importance Basé sur Modèle
Technique utilisant le modèle pour générer des trajectoires depuis une distribution propositionnelle, puis les pondérant par leur vraisemblance sous la politique experte.
Méthode du Maximum d'Entropie
Principe d'inférence qui choisit la fonction de récompense la moins informative (à entropie maximale) parmi celles qui expliquent les démonstrations, évitant le sur-ajustement.