Glosario IA
El diccionario completo de la Inteligencia Artificial
Apprentissage par Renforcement Inverse Batch
Méthode d'IRL qui infère la fonction de récompense à partir d'un ensemble fixe de démonstrations sans interaction continue avec l'environnement.
Ensemble de Démonstrations Fixes
Collection statique de trajectoires expertes utilisée comme unique source d'information pour l'apprentissage en batch.
Inférence de Récompense hors-ligne
Processus d'estimation de la fonction de récompense optimale sans accès direct à l'environnement ou à l'expert pendant l'apprentissage.
Trajectoires Expertes Batch
Séquences d'états-actions collectées une seule fois qui représentent le comportement optimal à imiter.
Maximisation de la Vraisemblance Marginale
Technique d'optimisation qui maximise la probabilité que les démonstrations expertes soient optimales sous la récompense apprise.
Apprentissage sans Interaction Active
Paradigme d'apprentissage où l'agent ne peut pas interroger l'environnement ou l'expert pendant le processus d'optimisation.
Biais de Distribution Batch
Phénomène où les politiques apprises en batch sur-optimisent pour les états observés dans le dataset d'entraînement.
Contrainte de Cohérence de Trajectoire
Condition imposée en BIRL garantissant que la récompense apprise classe les trajectoires expertes au-dessus des alternatives.
Espace de Politiques Admissibles
Ensemble des politiques qui peuvent être évaluées étant donné les limitations des données batch disponibles.
Optimisation Convexe Batch
Formulation du problème BIRL comme un problème d'optimisation convexe utilisant des contraintes linéaires sur les récompenses.
Erreur d'Extrapolation Batch
Inexactitude introduite lorsque le système évalue des états ou actions non présents dans le dataset d'entraînement initial.
Fonction de Récompense à Support Fini
Représentation de récompense définie uniquement sur les états observés dans le batch de démonstrations.
Apprentissage par Renforcement Inverse Apprentissage Profond
Extension du BIRL utilisant des réseaux de neurones profonds pour modéliser des fonctions de récompense complexes.
Stabilité Apprentissage Batch
Propriété garantissant que les solutions BIRL ne varient pas drastiquement face à de petites perturbations du dataset.
Borne d'Optimalité Batch
Limite théorique sur la performance de la politique apprise en fonction de la qualité et couverture du dataset batch.
Échantillonnage d'Importance Batch
Technique pour corriger le décalage de distribution entre les politiques explorées et les données batch disponibles.
Validation Croisée BIRL
Méthode d'évaluation partitionnant les démonstrations pour estimer la généralisation de la récompense apprise.
Décomposition de la Récompense Batch
Approche factorisant la fonction de récompense en composantes interprétables à partir des données batch.
Régularisation de la Complexité BIRL
Contrainte ajoutée pour éviter le surapprentissage et favoriser des fonctions de récompense simples et généralisables.
Apprentissage Multi-tâches Batch
Extension BIRL apprenant simultanément plusieurs fonctions de récompense à partir de datasets batch distincts.