Apprentissage Temporel Différentiel
Return TD
Estimation du retour attendu depuis un état donné, calculée en combinant les récompenses immédiates avec les estimations de valeur futures selon la méthode temporelle différentielle.
← Zurück