Actor-Critic Methods
Deep Deterministic Policy Gradient
Algoritmo Actor-Critic para espaços de ação contínuos usando redes neurais profundas com política determinística e buffer de replay para aprendizado off-policy estável.
← Voltar