Aprendizaje por Diferenciación de Modelos
Gradiente de Política a través del Modelo
Método que calcula los gradientes de política propagando las recompensas a través de un modelo de entorno diferenciable.
← Volver