Glosario IA
El diccionario completo de la Inteligencia Artificial
Model-Based Offline RL
Approche d'apprentissage par renforcement offline qui apprend un modèle dynamique de l'environnement pour générer des données synthétiques et améliorer la politique sans interaction réelle.
Imagination Rollouts
Trajectoires simulées générées en utilisant le modèle appris de l'environnement pour explorer des états futurs potentiels sans interaction réelle avec l'environnement.
Conservative Policy Optimization
Algorithme qui pénalise explicitement les politiques qui s'écartent significativement du comportement des données d'entraînement pour éviter les erreurs d'extrapolation.
Uncertainty Quantification
Technique permettant d'estimer l'incertitude du modèle dynamique dans les régions hors-distribution pour guider l'exploration et éviter les erreurs catastrophiques.
Ensemble Models
Collection de plusieurs modèles dynamiques entraînés avec différentes initialisations pour estimer l'incertitude épistémique par la variance des prédictions.
Trajectory Transformers
Architecture transformer qui modélise les trajectoires comme des séquences d'états, actions et récompenses pour prédire les transitions futures en apprentissage offline.
Offline-to-Online Transfer
Processus de transfert d'une politique apprise offline vers un environnement en ligne pour affinement et adaptation continue avec interaction réelle.
Model Ensembling
Technique utilisant plusieurs modèles dynamiques pour capturer différentes hypothèses sur la transition d'état et améliorer la robustesse des prédictions.
Advantage Weighted Regression
Méthode offline qui pondère les actions dans les données d'entraînement selon leur avantage estimé pour améliorer la politique au-delà du simple clonage.
Out-of-Distribution Detection
Mécanisme pour identifier quand les états générés par le modèle s'écartent significativement de la distribution des données d'entraînement originales.