Optimización de Políticas Proximal (PPO)
Recorte de Función de Valor
Variante de PPO que también aplica recorte a la función de valor para estabilizar el aprendizaje y prevenir grandes variaciones en las estimaciones de valor.
← Volver