Batch Constrained Q-learning (BCQ)
Policy Evaluation
Phase d'évaluation de la performance d'une politique en utilisant uniquement les données offline sans interaction avec l'environnement. Cette étape est cruciale pour valider les apprentissages avant déploiement.
← رجوع