Aprendizaje por Diferenciación de Modelos
RL Basado en Modelo Diferenciable
Enfoque de aprendizaje por refuerzo donde los gradientes se retropropagan a través de un modelo de entorno diferenciable para optimizar directamente las políticas.
← Volver