Batch Constrained Q-learning (BCQ)
Bootstrapping Error
Erreur accumulée lorsqu'une politique utilise ses propres estimations de valeur pour s'améliorer, conduisant à une divergence hors du support des données. Les méthodes offline utilisent des techniques spécifiques pour contrôler ce biais.
← Retour