Métodos de Gradiente de Política
Rede de Política
Rede neural parametrizada que representa a política π(a|s; θ), gerando uma distribuição de probabilidades sobre as ações condicionadas ao estado atual.
← Voltar