Double Q-learning
Optimisme spurious
Phénomène où le Q-learning développe une confiance excessive dans des actions sous-optimales dû au biais de surestimation, phénomène atténué par Double Q-learning grâce à l'évaluation croisée.
← Wstecz