Double Q-learning
Biais de maximisation
Phénomène où l'opérateur max appliqué sur des valeurs estimées bruitées introduit un biais positif systématique, aggravé dans le Q-learning classique par l'utilisation du même estimateur pour la sélection et l'évaluation.
← Terug