Double Q-learning
Surestimation maximale
Biais systématique dans le Q-learning où l'utilisation de la même fonction Q pour sélectionner et évaluer les actions entraîne une surestimation des valeurs d'action, particulièrement problématique dans les environnements stochastiques.
← 뒤로