Métodos Actor-Crítico
Deep Deterministic Policy Gradient
Algoritmo Actor-Critic para espacios de acción continuos utilizando redes neuronales profundas con política determinista y replay buffer para el aprendizaje fuera de política estable.
← Volver