Apprentissage par Renforcement Inverse Batch

📖

términos

Apprentissage par Renforcement Inverse Batch

Méthode d'IRL qui infère la fonction de récompense à partir d'un ensemble fixe de démonstrations sans interaction continue avec l'environnement.

📖

términos

Ensemble de Démonstrations Fixes

Collection statique de trajectoires expertes utilisée comme unique source d'information pour l'apprentissage en batch.

📖

términos

Inférence de Récompense hors-ligne

Processus d'estimation de la fonction de récompense optimale sans accès direct à l'environnement ou à l'expert pendant l'apprentissage.

📖

términos

Trajectoires Expertes Batch

Séquences d'états-actions collectées une seule fois qui représentent le comportement optimal à imiter.

📖

términos

Maximisation de la Vraisemblance Marginale

Technique d'optimisation qui maximise la probabilité que les démonstrations expertes soient optimales sous la récompense apprise.

📖

términos

Apprentissage sans Interaction Active

Paradigme d'apprentissage où l'agent ne peut pas interroger l'environnement ou l'expert pendant le processus d'optimisation.

📖

términos

Biais de Distribution Batch

Phénomène où les politiques apprises en batch sur-optimisent pour les états observés dans le dataset d'entraînement.

📖

términos

Contrainte de Cohérence de Trajectoire

Condition imposée en BIRL garantissant que la récompense apprise classe les trajectoires expertes au-dessus des alternatives.

📖

términos

Espace de Politiques Admissibles

Ensemble des politiques qui peuvent être évaluées étant donné les limitations des données batch disponibles.

📖

términos

Optimisation Convexe Batch

Formulation du problème BIRL comme un problème d'optimisation convexe utilisant des contraintes linéaires sur les récompenses.

📖

términos

Erreur d'Extrapolation Batch

Inexactitude introduite lorsque le système évalue des états ou actions non présents dans le dataset d'entraînement initial.

📖

términos

Fonction de Récompense à Support Fini

Représentation de récompense définie uniquement sur les états observés dans le batch de démonstrations.

📖

términos

Apprentissage par Renforcement Inverse Apprentissage Profond

Extension du BIRL utilisant des réseaux de neurones profonds pour modéliser des fonctions de récompense complexes.

📖

términos

Stabilité Apprentissage Batch

Propriété garantissant que les solutions BIRL ne varient pas drastiquement face à de petites perturbations du dataset.

📖

términos

Borne d'Optimalité Batch

Limite théorique sur la performance de la politique apprise en fonction de la qualité et couverture du dataset batch.

📖

términos

Échantillonnage d'Importance Batch

Technique pour corriger le décalage de distribution entre les politiques explorées et les données batch disponibles.

📖

términos

Validation Croisée BIRL

Méthode d'évaluation partitionnant les démonstrations pour estimer la généralisation de la récompense apprise.

📖

términos

Décomposition de la Récompense Batch

Approche factorisant la fonction de récompense en composantes interprétables à partir des données batch.

📖

términos

Régularisation de la Complexité BIRL

Contrainte ajoutée pour éviter le surapprentissage et favoriser des fonctions de récompense simples et généralisables.

📖

términos

Apprentissage Multi-tâches Batch

Extension BIRL apprenant simultanément plusieurs fonctions de récompense à partir de datasets batch distincts.

Glosario IA