Gradiente de Política Determinista Profunda (DDPG)
Off-Policy Learning
Método de aprendizaje donde el agente aprende una política óptima mientras sigue otra política de comportamiento, permitiendo una mejor exploración.
← Volver