Éligibility Traces
TD(λ) Algorithm
Algorithme d'apprentissage temporel-différence qui combine les avantages de TD(0) et Monte Carlo via un paramètre λ contrôlant la décroissance des traces d'éligibilité.
← Zurück