Proximal Policy Optimization (PPO)
Clipping Function
Mécanisme PPO qui limite l'ampleur des mises à jour de politique en tronquant le rapport de probabilité entre la nouvelle et l'ancienne politique pour éviter des changements trop drastiques.
← Retour