Optimización de Políticas Proximal (PPO)
Penalización de Divergencia KL
Penalización añadida a la función objetivo PPO para controlar la divergencia entre políticas sucesivas, ajustada adaptativamente para mantener las actualizaciones en una región aceptable.
← Volver