Deep RL Basado en Modelo
Optimización de Políticas Basada en Modelo (MBPO)
Algoritmo híbrido que utiliza modelos de corto alcance para generar datos sintéticos mientras mantiene un conjunto de datos reales para estabilizar el aprendizaje de la política.
← Volver