Double Q-learning
Erreur de TD double
Variante de l'erreur de différence temporelle utilisée dans Double Q-learning, combinant les estimations des deux fonctions Q pour calculer une cible d'apprentissage non biaisée.
← Terug