Glosario IA
El diccionario completo de la Inteligencia Artificial
Función de Recorte
Mecanismo PPO que limita la magnitud de las actualizaciones de política truncando la relación de probabilidad entre la nueva y la antigua política para evitar cambios demasiado drásticos.
Región de Confianza
Región de confianza en el espacio de políticas donde las actualizaciones se consideran seguras, definida por una restricción sobre la divergencia KL entre políticas sucesivas.
Objetivo Sustituto
Función objetivo modificada utilizada en PPO que aproxima el objetivo original incorporando restricciones de estabilidad como el recorte para evitar la degradación del rendimiento.
Penalización de Divergencia KL
Penalización añadida a la función objetivo PPO para controlar la divergencia entre políticas sucesivas, ajustada adaptativamente para mantener las actualizaciones en una región aceptable.
Actualizaciones de Mini-lotes
Proceso de optimización PPO donde los datos recopilados se dividen en pequeños lotes para realizar múltiples pasadas de gradiente, mejorando la eficiencia computacional y la estabilidad.
Parámetro de Rango de Recorte
Hiperparámetro épsilon en PPO que define el ancho de la zona de recorte para la relación de probabilidad, controlando directamente el conservadurismo de las actualizaciones de política.
Recorte de Función de Valor
Variante de PPO que también aplica recorte a la función de valor para estabilizar el aprendizaje y prevenir grandes variaciones en las estimaciones de valor.
Optimización de Épocas
Proceso PPO donde los mismos datos de experiencia se reutilizan para múltiples pasadas de optimización, mejorando el aprovechamiento de los datos recopilados.
Ventaja Normalizada
Técnica de normalización de estimaciones de ventaja para estabilizar el entrenamiento manteniendo una escala consistente de gradientes entre actualizaciones.
Recolección de Experiencia
Fase PPO donde el agente interactúa con el entorno siguiendo la política actual para recolectar transiciones (estado, acción, recompensa) utilizadas para la optimización.
Penalización KL Adaptativa
Variante PPO que ajusta dinámicamente la fuerza de la penalización KL según la divergencia observada entre políticas, asegurando actualizaciones controladas.