Glosario IA
El diccionario completo de la Inteligencia Artificial
Batch Constrained Q-learning (BCQ)
Algorithme d'apprentissage par renforcement offline qui contraint les politiques à rester proches des actions observées dans le jeu de données d'entraînement pour éviter les erreurs d'extrapolation. BCQ utilise un modèle de générateur d'actions pour produire des actions similaires à celles du batch tout en explorant de légères variations.
Distribution Shift
Phénomène où la distribution des états-actions visités par la politique apprise diffère significativement de la distribution du jeu de données offline. Ce décalage peut entraîner des estimations de valeur biaisées et une performance dégradée lors du déploiement.
Offline Reinforcement Learning
Paradigme d'apprentissage où l'agent apprend exclusivement à partir d'un ensemble fixe de données collectées préalablement, sans interaction avec l'environnement. Cette approche est essentielle lorsque l'exploration en temps réel est coûteuse ou dangereuse.
Behavior Cloning
Technique d'apprentissage supervisé qui imite directement les actions d'un expert à partir de données démonstratives sans utiliser de signaux de récompense. Bien que simple, cette approche peut souffrir d'accumulation d'erreurs en cascade lors du déploiement.
Implicit Q-learning
Méthode qui apprend la fonction Q de manière implicite en évitant l'évaluation directe des actions hors distribution. IQL formule l'apprentissage comme un problème d'apprentissage par expectile pour mieux gérer l'incertitude dans les données offline.
Out-of-Distribution Actions
Actions générées par la politique apprise qui n'ont pas été ou rarement observées dans le jeu de données d'entraînement. Ces actions posent un risque majeur en offline RL car leurs valeurs ne peuvent être estimées de manière fiable.
Policy Constraint
Mécanisme qui limite la politique apprise à produire des actions similaires à celles présentes dans le batch de données offline. Cette contrainte peut être implémentée via des pénalités, des divergences ou des modèles génératifs conditionnels.
Perturbation Model
Composant de BCQ qui génère des variations autour des actions du comportement pour explorer localement l'espace d'actions. Ce modèle ajoute un bruit contrôlé aux actions observées tout en garantissant leur faisabilité.
Value Function Estimation
Processus d'estimation des valeurs Q à partir de données offline en tenant compte du biais potentiel dû à l'absence d'exploration. Les méthodes modernes utilisent des techniques de sous-estimation conservative pour éviter la sur-optimisation.
Batch RL
Cadre d'apprentissage par renforcement où l'agent dispose d'un lot fixe de transitions et doit apprendre une politique optimale sans interactions supplémentaires. Ce contexte impose des contraintes spécifiques sur les algorithmes pour éviter la divergence.
Safety Constraint
Restriction imposée aux politiques offline pour garantir que les actions générées restent dans des régions sûres de l'espace d'états-actions. Ces contraintes sont cruciales dans des applications comme la robotique ou la médecine.
Action Repetition
Stratégie utilisée en offline RL pour améliorer la stabilité en répétant les actions similaires à celles observées dans les données. Cette technique réduit le risque de générer des actions complètement nouvelles et potentiellement dangereuses.
Uncertainty Estimation
Quantification de l'incertitude associée aux estimations de valeur des actions non observées dans le batch. Une estimation précise de l'incertitude permet de pénaliser les actions hors distribution et d'améliorer la robustesse.
Model-Based RL
Approche qui apprend un modèle de la dynamique de l'environnement à partir des données offline pour générer des expériences synthétiques. En contexte offline, ce modèle doit être utilisé avec prudence pour éviter la propagation d'erreurs.
Policy Evaluation
Phase d'évaluation de la performance d'une politique en utilisant uniquement les données offline sans interaction avec l'environnement. Cette étape est cruciale pour valider les apprentissages avant déploiement.
Policy Improvement
Processus d'amélioration itérative de la politique en utilisant les estimations de valeur calculées à partir du batch de données offline. L'amélioration doit respecter les contraintes de distribution pour maintenir la validité.
Bootstrapping Error
Erreur accumulée lorsqu'une politique utilise ses propres estimations de valeur pour s'améliorer, conduisant à une divergence hors du support des données. Les méthodes offline utilisent des techniques spécifiques pour contrôler ce biais.