Gradiente de Política Determinista Profunda (DDPG)
Neural Network Function Approximation
Uso de redes neuronales para aproximar funciones complejas como políticas o funciones de valor en aprendizaje por refuerzo.
← Volver