Deep RL Basado en Modelo
Modelo de Dinámica Directa
Modelo predictivo que aprende la transición de estado s_{t+1} = f(s_t, a_t) para anticipar las consecuencias futuras de las acciones en el entorno.
← Volver