Learning Temporel Différentiel
Cible TD
Estimation utilisée pour mettre à jour la valeur actuelle dans les algorithmes TD, combinant la récompense immédiate avec une estimation de la valeur future (ex: R + γV(s')).
← 뒤로