Aprendizagem Temporal Diferencial
Control TD
Extensão dos métodos TD a problemas de controle, onde o agente deve não apenas avaliar os estados, mas também aprender uma política de ação ótima para maximizar as recompensas acumuladas.
← Voltar