Aprendizagem Temporal Diferencial
TD(λ)
Algoritmo generalizado de aprendizado temporal diferencial que usa um parâmetro λ para ponderar os retornos de n-passos e os traços de elegibilidade, permitindo um compromisso entre TD(0) e Monte Carlo.
← Voltar