Glosario IA
El diccionario completo de la Inteligencia Artificial
Conservative Q-Learning (CQL)
Méthode qui pénalise les valeurs Q surestimées pour maintenir la politique proche de la distribution des données.
Batch Constrained Q-learning (BCQ)
Approche qui contraint les actions à rester proches de celles observées dans le jeu de données pour éviter la distribution shift.
Decision Transformer
Architecture transformer qui traite l'apprentissage par renforcement offline comme un problème de séquence à séquence.
Implicit Q-Learning (IQL)
Méthode qui apprend implicitement la fonction Q sans nécessiter d'opérateur max explicite.
Model-Based Offline RL
Approche utilisant des modèles appris de l'environnement pour améliorer l'échantillonnage hors distribution.
Offline-to-Online Transfer Learning
Techniques pour transférer efficacement les apprentissages offline vers des settings en ligne.
Distributional Offline RL
Méthodes modélisant la distribution complète des retours plutôt que seulement leur espérance mathématique.
Safe Offline Reinforcement Learning
Approches garantissant la sécurité lors du déploiement de politiques apprises uniquement sur données statiques.
Uncertainty-Aware Offline RL
Méthodes quantifiant l'incertitude épistémique pour éviter les actions hors distribution.
Trajectory Transformer
Modèle transformer qui génère des trajectoires complètes en apprentissant la distribution des séquences état-action-récompense.
Advantage-Weighted Regression (AWR)
Approche pondérant les régressions selon l'avantage pour améliorer la sélection d'actions hors distribution.
Offline Multi-Task Reinforcement Learning
Paradigme d'apprentissage simultané de multiples tâches à partir de datasets batch partagés.