Learning Temporel Différentiel
Algorithme TD(λ)
Généralisation des méthodes TD qui pondère les n-uplets de retours futurs selon un facteur de trace d'éligibilité λ, permettant un compromis continu entre TD(0) et Monte Carlo.
← 返回