Batch Constrained Q-learning (BCQ)
Implicit Q-learning
Méthode qui apprend la fonction Q de manière implicite en évitant l'évaluation directe des actions hors distribution. IQL formule l'apprentissage comme un problème d'apprentissage par expectile pour mieux gérer l'incertitude dans les données offline.
← Volver