Aprendizaje por Refuerzo Profundo
Deep Deterministic Policy Gradient (DDPG)
Algoritmo off-policy para espacios de acción continuos que combina DQN y Actor-Critic, utilizando redes objetivo y una política determinista.
← Volver