Proximal Policy Optimization (PPO)
Clip Range Parameter
Hyperparamètre epsilon dans PPO qui définit la largeur de la zone de clipping pour le rapport de probabilité, contrôlant directement la conservatisme des mises à jour de politique.
← Voltar