Deep RL Baseado em Modelo
Modelo de Dinâmica Direta
Modelo preditivo que aprende a transição de estado s_{t+1} = f(s_t, a_t) para antecipar as consequências futuras das ações no ambiente.
← Voltar