Proximal Policy Optimization (PPO)
Vantagem Normalizada
Técnica de normalização das estimativas de vantagem para estabilizar o treinamento mantendo uma escala consistente de gradientes entre as atualizações.
← Voltar