Double Q-learning
Estimateurs Q découplés
Deux fonctions de valeur distinctes Q1 et Q2 dans Double Q-learning, où l'une est utilisée pour sélectionner l'action optimale et l'autre pour évaluer sa valeur, permettant de décorréler la sélection de l'évaluation.
← 返回