Deep RL Baseado em Modelo
Planeamento com Modelos Aprendidos
Processo de pesquisa sequencial que utiliza o modelo aprendido para avaliar diferentes sequências de ações futuras e selecionar a ótima segundo as previsões de recompensa.
← Voltar