Aprendizagem Temporal Diferencial
Retorno TD
Estimativa do retorno esperado a partir de um determinado estado, calculada combinando as recompensas imediatas com as estimativas de valor futuro segundo o método de diferença temporal.
← Voltar