Batch Constrained Q-learning (BCQ)
Value Function Estimation
Processus d'estimation des valeurs Q à partir de données offline en tenant compte du biais potentiel dû à l'absence d'exploration. Les méthodes modernes utilisent des techniques de sous-estimation conservative pour éviter la sur-optimisation.
← Volver