Double Q-learning
Valeur d'action estimée
Estimation de la récompense cumulative future attendue pour une paire état-action spécifique, calculée différemment dans Double Q-learning pour éviter la surestimation systématique.
← Terug