Métodos de Gradiente de Política
Função Linha de Base
Função subtraída do retorno para reduzir a variância da estimativa do gradiente sem introduzir viés, tipicamente a função de valor do estado.
← Voltar