Aprendizagem Temporal Diferencial
Equação de Bellman TD
Formulação da equação de Bellman adaptada ao aprendizado temporal diferencial, expressando o valor de um estado como uma função das recompensas imediatas e dos valores futuros.
← Voltar