Learning Temporel Différentiel
Trace d'Éligibilité
Mécanisme de mémoire qui suit les états ou actions récemment visités, permettant de propager l'erreur TD en arrière dans le temps pour accélérer l'apprentissage.
← رجوع