Optimización de Políticas Proximal (PPO)

📖

términos

Función de Recorte

Mecanismo PPO que limita la magnitud de las actualizaciones de política truncando la relación de probabilidad entre la nueva y la antigua política para evitar cambios demasiado drásticos.

📖

términos

Región de Confianza

Región de confianza en el espacio de políticas donde las actualizaciones se consideran seguras, definida por una restricción sobre la divergencia KL entre políticas sucesivas.

📖

términos

Objetivo Sustituto

Función objetivo modificada utilizada en PPO que aproxima el objetivo original incorporando restricciones de estabilidad como el recorte para evitar la degradación del rendimiento.

📖

términos

Penalización de Divergencia KL

Penalización añadida a la función objetivo PPO para controlar la divergencia entre políticas sucesivas, ajustada adaptativamente para mantener las actualizaciones en una región aceptable.

📖

términos

Actualizaciones de Mini-lotes

Proceso de optimización PPO donde los datos recopilados se dividen en pequeños lotes para realizar múltiples pasadas de gradiente, mejorando la eficiencia computacional y la estabilidad.

📖

términos

Parámetro de Rango de Recorte

Hiperparámetro épsilon en PPO que define el ancho de la zona de recorte para la relación de probabilidad, controlando directamente el conservadurismo de las actualizaciones de política.

📖

términos

Recorte de Función de Valor

Variante de PPO que también aplica recorte a la función de valor para estabilizar el aprendizaje y prevenir grandes variaciones en las estimaciones de valor.

📖

términos

Optimización de Épocas

Proceso PPO donde los mismos datos de experiencia se reutilizan para múltiples pasadas de optimización, mejorando el aprovechamiento de los datos recopilados.

📖

términos

Ventaja Normalizada

Técnica de normalización de estimaciones de ventaja para estabilizar el entrenamiento manteniendo una escala consistente de gradientes entre actualizaciones.

📖

términos

Recolección de Experiencia

Fase PPO donde el agente interactúa con el entorno siguiendo la política actual para recolectar transiciones (estado, acción, recompensa) utilizadas para la optimización.

📖

términos

Penalización KL Adaptativa

Variante PPO que ajusta dinámicamente la fuerza de la penalización KL según la divergencia observada entre políticas, asegurando actualizaciones controladas.

Glosario IA

Función de Recorte

Región de Confianza

Objetivo Sustituto

Penalización de Divergencia KL

Actualizaciones de Mini-lotes

Parámetro de Rango de Recorte

Recorte de Función de Valor

Optimización de Épocas

Ventaja Normalizada

Recolección de Experiencia

Penalización KL Adaptativa

No se encontraron resultados