Proximal Policy Optimization (PPO)
Mini-batch Updates
Processus d'optimisation PPO où les données collectées sont divisées en petits lots pour effectuer plusieurs passes de gradient, améliorant l'efficacité computationnelle et la stabilité.
← Voltar