Actor-Critic Methods
Twin Delayed Deep Deterministic Policy Gradient
Melhoria do DDPG usando dois críticos gêmeos para reduzir a superestimação do valor e atualizações adiadas do ator e dos alvos para maior estabilidade.
← Voltar