Batch Constrained Q-learning (BCQ)
Uncertainty Estimation
Quantification de l'incertitude associée aux estimations de valeur des actions non observées dans le batch. Une estimation précise de l'incertitude permet de pénaliser les actions hors distribution et d'améliorer la robustesse.
← Retour