Optimización de Políticas Proximal (PPO)
Actualizaciones de Mini-lotes
Proceso de optimización PPO donde los datos recopilados se dividen en pequeños lotes para realizar múltiples pasadas de gradiente, mejorando la eficiencia computacional y la estabilidad.
← Volver