Batch Constrained Q-learning (BCQ)
Distribution Shift
Phénomène où la distribution des états-actions visités par la politique apprise diffère significativement de la distribution du jeu de données offline. Ce décalage peut entraîner des estimations de valeur biaisées et une performance dégradée lors du déploiement.
← Volver