Conservative Q-Learning (CQL)
Correction de distribution
Mécanisme dans CQL qui ajuste les estimations Q pour corriger le décalage entre la distribution comportementale et la distribution de la politique cible.
← Volver