Aprendizagem Temporal Diferencial
Algoritmo TD(λ)
Generalização dos métodos TD que pondera os n-tuplos de retornos futuros de acordo com um fator de rastro de elegibilidade λ, permitindo um compromisso contínuo entre TD(0) e Monte Carlo.
← Voltar