Apprentissage par Renforcement Inverse Basé sur Modèles

📖

termes

Apprentissage par Renforcement Inverse Basé sur Modèles

Une approche qui infère une fonction de récompense à partir de démonstrations expertes en utilisant un modèle de l'environnement pour générer et évaluer des trajectoires alternatives plausibles.

📖

termes

Inférence de Fonction de Récompense

Le processus d'estimation de la fonction de récompense sous-jacente d'un agent en observant son comportement, souvent formulé comme un problème d'optimisation de la vraisemblance des trajectoires démontrées.

📖

termes

Modèle de Dynamique Environnemental

Un modèle appris qui prédit l'état suivant et la récompense étant donné un état et une action actuels, utilisé pour simuler des trajectoires dans l'apprentissage par renforcement basé sur modèle.

📖

termes

Génération de Trajectoires Plausibles

L'utilisation d'un modèle environnemental pour créer des séquences d'états-actions qui sont cohérentes avec la dynamique du système et les politiques observées, servant de données synthétiques pour l'inférence.

📖

termes

Biais d'Imitation

Tendance d'un agent appris par renforcement inverse à sur-imiter les actions démontrées sans généraliser à des états non vus, nécessitant l'utilisation de modèles pour explorer au-delà des données expertes.

📖

termes

Optimisation de la Vraisemblance des Trajectoires

Méthode d'ajustement de la fonction de récompense pour maximiser la probabilité que les trajectoires expertes observées soient optimales sous la récompense inférée.

📖

termes

Fonction de Récompense Ambiguë

Problème où plusieurs fonctions de récompense différentes peuvent expliquer de manière équivalente les mêmes démonstrations expertes, nécessitant des contraintes ou des a priori pour résoudre l'ambiguïté.

📖

termes

Ensemble de Trajectoires Synthétiques

Collection de trajectoires générées par le modèle environnemental, utilisée pour enrichir les données de démonstration et améliorer la robustesse de l'inférence de la récompense.

📖

termes

Erreur de Modèle Environnemental

Écart entre la dynamique réelle de l'environnement et celle prédite par le modèle appris, qui peut biaiser l'inférence de la récompense si non corrigée.

📖

termes

Rétropropagation à travers le Modèle

Technique de calcul des gradients de la fonction de récompense par rapport à ses paramètres en propageant l'erreur à travers le modèle de dynamique différentiable.

📖

termes

Espace des Politiques

Ensemble de toutes les politiques possibles π(a|s) que l'agent peut adopter, dans lequel l'inférence par renforcement inverse cherche à identifier la politique optimale compatible avec les démonstrations.

📖

termes

Planification Monte Carlo sur Modèle

Méthode utilisant des simulations stochastiques du modèle environnemental pour évaluer différentes fonctions de récompense candidates et sélectionner celle qui explique le mieux les démonstrations.

📖

termes

Fonction de Coût de Régularisation

Terme ajouté à l'objectif d'inférence pour pénaliser les fonctions de récompense complexes ou irréalistes, favorisant des solutions plus simples et généralisables.

📖

termes

Distribution Postérieure sur les Récompenses

Approche bayésienne qui maintient une distribution de probabilité sur les fonctions de récompense possibles plutôt qu'une estimation ponctuelle, permettant de quantifier l'incertitude.

📖

termes

Horizon de Simulation

Nombre maximal d'étapes futures simulées par le modèle environnemental lors de la génération de trajectoires, influençant l'équilibre entre exploration et coût computationnel.

📖

termes

Échantillonnage d'Importance Basé sur Modèle

Technique utilisant le modèle pour générer des trajectoires depuis une distribution propositionnelle, puis les pondérant par leur vraisemblance sous la politique experte.

📖

termes

Méthode du Maximum d'Entropie

Principe d'inférence qui choisit la fonction de récompense la moins informative (à entropie maximale) parmi celles qui expliquent les démonstrations, évitant le sur-ajustement.

Glossaire IA