Optimización de Políticas Proximal (PPO)
Ventaja Normalizada
Técnica de normalización de estimaciones de ventaja para estabilizar el entrenamiento manteniendo una escala consistente de gradientes entre actualizaciones.
← Volver