Aprendizagem por Reforço Profunda
Deep Deterministic Policy Gradient (DDPG)
Algoritmo off-policy para espaços de ação contínuos que combina DQN e Actor-Critic, utilizando redes alvo e uma política determinística.
← Voltar