Policy Gradient Methods
Proximal Policy Optimization (PPO)
Algorithme optimisant la politique en contraint les mises à jour pour rester proches de la politique précédente, utilisant une fonction objectif clipée pour garantir la stabilité de l'apprentissage.
← Retour