Métodos de Gradiente de Política
Algoritmo REINFORCE
Algoritmo base do gradiente de política que utiliza uma estimativa Monte Carlo do gradiente para atualizar os parâmetros da política de acordo com os episódios completamente observados.
← Voltar