Batch Constrained Q-learning (BCQ)
Model-Based RL
Approche qui apprend un modèle de la dynamique de l'environnement à partir des données offline pour générer des expériences synthétiques. En contexte offline, ce modèle doit être utilisé avec prudence pour éviter la propagation d'erreurs.
← Volver