Métodos de Gradiente de Política
Optimización de Política Proximal (PPO)
Algoritmo que optimiza la política restringiendo las actualizaciones para mantenerse cerca de la política anterior, utilizando una función objetivo recortada para garantizar la estabilidad del aprendizaje.
← Volver