Proximal Policy Optimization (PPO)
Normalized Advantage
Technique de normalisation des estimations d'avantage pour stabiliser l'entraînement en maintenant une échelle cohérente des gradients entre les mises à jour.
← Retour