Apprentissage Temporel Différentiel
Erreur TD
Différence entre la valeur estimée actuelle d'un état et la valeur cible mise à jour en utilisant la récompense immédiate et l'estimation de valeur du prochain état.
← 뒤로