Deep RL Basado en Modelo
Planificación con Modelos Aprendidos
Proceso de búsqueda secuencial que utiliza el modelo aprendido para evaluar diferentes secuencias de acciones futuras y seleccionar el óptimo según las predicciones de recompensa.
← Volver