Éligibility Traces
True Online TD(λ)
Variante exacte de TD(λ) garantissant l'équivalence parfaite entre forward et backward views, éliminant les erreurs d'approximation des implémentations classiques.
← Indietro