Traços de Eligibilidade
TD(λ) Algorithm
Algoritmo de aprendizagem temporal-diferença que combina as vantagens de TD(0) e Monte Carlo através de um parâmetro λ que controla a decaída das traces de elgibilidade.
← Voltar