Glosario IA
El diccionario completo de la Inteligencia Artificial
Gradiente de Política
Método de optimización directa que ajusta los parámetros de la política siguiendo el gradiente del retorno esperado, permitiendo el aprendizaje de políticas estocásticas sin necesidad de un modelo del entorno.
Algoritmo REINFORCE
Algoritmo base del gradiente de política que utiliza una estimación Monte Carlo del gradiente para actualizar los parámetros de la política según los episodios completamente observados.
Métodos Actor-Crítico
Enfoque híbrido que combina un actor que aprende la política y un crítico que estima la función de valor, reduciendo la varianza de las estimaciones del gradiente de política.
Función de Ventaja
Medida de la superioridad de una acción en comparación con el promedio de acciones en un estado dado, calculada como la diferencia entre la función Q y la función V para reducir la varianza del gradiente.
Optimización de Política Proximal (PPO)
Algoritmo que optimiza la política restringiendo las actualizaciones para mantenerse cerca de la política anterior, utilizando una función objetivo recortada para garantizar la estabilidad del aprendizaje.
Optimización de Política de Región de Confianza (TRPO)
Método que garantiza mejoras monótonas del rendimiento optimizando la política en una región de confianza definida por la divergencia KL entre políticas sucesivas.
Gradiente de Política Natural
Variante del gradiente de política que utiliza la métrica de Fisher para realizar actualizaciones invariantes a la parametrización, garantizando una convergencia más estable y eficiente.
Red de Política
Red neuronal parametrizada que representa la política π(a|s; θ), generando una distribución de probabilidades sobre las acciones condicionadas al estado actual.
Gradiente de Política de Monte Carlo
Técnica de estimación del gradiente utilizando trayectorias completas para calcular los retornos, permitiendo una estimación sin sesgo pero con alta varianza.
Función de Línea Base
Función restada del retorno para reducir la varianza de la estimación del gradiente sin introducir sesgo, típicamente la función de valor del estado.
Muestreo de Importancia
Técnica que permite usar datos recolectados con una política antigua para actualizar una nueva política, ponderando las muestras según el ratio de probabilidad de las políticas.
Regularización por Entropía
Adición de un término de entropía a la función objetivo para fomentar la exploración penalizando políticas demasiado deterministas, mejorando la robustez del aprendizaje.
Gradiente de Política Determinista
Extensión del gradiente de política a espacios de acción continuos donde la política es determinista, particularmente efectiva en entornos de alta dimensionalidad.
Política Estocástica
Política representada por una distribución de probabilidades π(a|s) sobre las acciones, permitiendo la exploración intrínseca y esencial para los métodos de gradiente de política.
Restricción de Divergencia KL
Restricción que limita la divergencia Kullback-Leibler entre políticas sucesivas para garantizar actualizaciones estables y evitar cambios demasiado drásticos en el comportamiento.
Estimación de Ventaja Generalizada (GAE)
Método de estimación de la ventaja combinando sesgo y varianza mediante un promedio ponderado de estimadores de múltiples pasos, ofreciendo un compromiso óptimo para el aprendizaje.
Teorema del Gradiente de Política
Teorema fundamental que proporciona una expresión analítica del gradiente del retorno esperado con respecto a los parámetros de la política, formulando la base teórica de los métodos.
Retorno Futuro
Suma de las recompensas futuras descontadas a partir de un paso de tiempo dado, utilizada como estimador del gradiente en los algoritmos de gradiente de política.