Batch Constrained Q-learning (BCQ)

📖

términos

Batch Constrained Q-learning (BCQ)

Algorithme d'apprentissage par renforcement offline qui contraint les politiques à rester proches des actions observées dans le jeu de données d'entraînement pour éviter les erreurs d'extrapolation. BCQ utilise un modèle de générateur d'actions pour produire des actions similaires à celles du batch tout en explorant de légères variations.

📖

términos

Distribution Shift

Phénomène où la distribution des états-actions visités par la politique apprise diffère significativement de la distribution du jeu de données offline. Ce décalage peut entraîner des estimations de valeur biaisées et une performance dégradée lors du déploiement.

📖

términos

Offline Reinforcement Learning

Paradigme d'apprentissage où l'agent apprend exclusivement à partir d'un ensemble fixe de données collectées préalablement, sans interaction avec l'environnement. Cette approche est essentielle lorsque l'exploration en temps réel est coûteuse ou dangereuse.

📖

términos

Behavior Cloning

Technique d'apprentissage supervisé qui imite directement les actions d'un expert à partir de données démonstratives sans utiliser de signaux de récompense. Bien que simple, cette approche peut souffrir d'accumulation d'erreurs en cascade lors du déploiement.

📖

términos

Implicit Q-learning

Méthode qui apprend la fonction Q de manière implicite en évitant l'évaluation directe des actions hors distribution. IQL formule l'apprentissage comme un problème d'apprentissage par expectile pour mieux gérer l'incertitude dans les données offline.

📖

términos

Out-of-Distribution Actions

Actions générées par la politique apprise qui n'ont pas été ou rarement observées dans le jeu de données d'entraînement. Ces actions posent un risque majeur en offline RL car leurs valeurs ne peuvent être estimées de manière fiable.

📖

términos

Policy Constraint

Mécanisme qui limite la politique apprise à produire des actions similaires à celles présentes dans le batch de données offline. Cette contrainte peut être implémentée via des pénalités, des divergences ou des modèles génératifs conditionnels.

📖

términos

Perturbation Model

Composant de BCQ qui génère des variations autour des actions du comportement pour explorer localement l'espace d'actions. Ce modèle ajoute un bruit contrôlé aux actions observées tout en garantissant leur faisabilité.

📖

términos

Value Function Estimation

Processus d'estimation des valeurs Q à partir de données offline en tenant compte du biais potentiel dû à l'absence d'exploration. Les méthodes modernes utilisent des techniques de sous-estimation conservative pour éviter la sur-optimisation.

📖

términos

Batch RL

Cadre d'apprentissage par renforcement où l'agent dispose d'un lot fixe de transitions et doit apprendre une politique optimale sans interactions supplémentaires. Ce contexte impose des contraintes spécifiques sur les algorithmes pour éviter la divergence.

📖

términos

Safety Constraint

Restriction imposée aux politiques offline pour garantir que les actions générées restent dans des régions sûres de l'espace d'états-actions. Ces contraintes sont cruciales dans des applications comme la robotique ou la médecine.

📖

términos

Action Repetition

Stratégie utilisée en offline RL pour améliorer la stabilité en répétant les actions similaires à celles observées dans les données. Cette technique réduit le risque de générer des actions complètement nouvelles et potentiellement dangereuses.

📖

términos

Uncertainty Estimation

Quantification de l'incertitude associée aux estimations de valeur des actions non observées dans le batch. Une estimation précise de l'incertitude permet de pénaliser les actions hors distribution et d'améliorer la robustesse.

📖

términos

Model-Based RL

Approche qui apprend un modèle de la dynamique de l'environnement à partir des données offline pour générer des expériences synthétiques. En contexte offline, ce modèle doit être utilisé avec prudence pour éviter la propagation d'erreurs.

📖

términos

Policy Evaluation

Phase d'évaluation de la performance d'une politique en utilisant uniquement les données offline sans interaction avec l'environnement. Cette étape est cruciale pour valider les apprentissages avant déploiement.

📖

términos

Policy Improvement

Processus d'amélioration itérative de la politique en utilisant les estimations de valeur calculées à partir du batch de données offline. L'amélioration doit respecter les contraintes de distribution pour maintenir la validité.

📖

términos

Bootstrapping Error

Erreur accumulée lorsqu'une politique utilise ses propres estimations de valeur pour s'améliorer, conduisant à une divergence hors du support des données. Les méthodes offline utilisent des techniques spécifiques pour contrôler ce biais.

Glosario IA