Métodos de Gradiente de Política
Função de Vantagem
Medida da superioridade de uma ação em relação à média das ações em um estado dado, calculada como a diferença entre a função Q e a função V para reduzir a variância do gradiente.
← Voltar