Glosario IA
El diccionario completo de la Inteligencia Artificial
Aprendizaje por Refuerzo con Restricciones
Paradigma de aprendizaje donde el agente optimiza un objetivo principal garantizando el cumplimiento de restricciones definidas sobre estados, acciones o recompensas acumuladas.
Función de Restricción
Función matemática que cuantifica las violaciones de las restricciones en el entorno, generalmente expresada como una esperanza sobre trayectorias que deben permanecer por debajo de un umbral predefinido.
Lagrangiano Aumentado
Método de optimización que combina multiplicadores de Lagrange y términos de penalización cuadráticos para gestionar eficientemente las restricciones en el aprendizaje por refuerzo.
Método de Punto Interior
Algoritmo de optimización que navega dentro del dominio factible utilizando funciones barrera para mantener estrictamente el cumplimiento de las restricciones durante el aprendizaje.
Optimización de Políticas con Restricciones
Algoritmo de aprendizaje por refuerzo que adapta la optimización de políticas para maximizar las recompensas bajo restricciones de costo o seguridad especificadas.
Función de Valor con Restricciones
Extensión de las funciones de valor Q y V que integra las restricciones como objetivos adicionales, permitiendo evaluar simultáneamente el rendimiento y el cumplimiento de limitaciones.
Conjunto de Políticas Admisibles
Espacio de políticas que satisfacen todas las restricciones especificadas, formando el dominio de búsqueda donde el algoritmo debe identificar la política óptima.
Multiplicadores de Lagrange
Variables escalares asociadas a cada restricción en la formulación dual, ajustadas dinámicamente para equilibrar la optimización del objetivo y la satisfacción de las restricciones.
Satisfacibilidad de Restricciones
Propiedad fundamental que garantiza la existencia de al menos una política que respeta todas las restricciones impuestas en el problema de aprendizaje por refuerzo.
Método de Proyección
Técnica que proyecta iterativamente las actualizaciones de política sobre el conjunto de políticas admisibles para garantizar el mantenimiento de las restricciones durante la optimización.
Aprendizaje por Refuerzo Cauteloso
Subdominio del RL con restricciones que se centra en mantener la seguridad del agente durante la exploración, típicamente mediante restricciones sobre los estados críticos.
Método de la Barrera Logarítmica
Enfoque de optimización que añade términos de penalización que tienden al infinito cerca de las fronteras de las restricciones, forzando al agente a permanecer estrictamente en el dominio admisible.
Optimización Biconvexa
Problema de optimización donde la función objetivo es convexa respecto a las variables de política y a los multiplicadores de Lagrange por separado, pero no conjuntamente.
Dualidad en Aprendizaje por Refuerzo
Principio matemático que transforma un problema con restricciones en un problema sin restricciones mediante multiplicadores de Lagrange, facilitando la optimización mientras garantiza la viabilidad.
Métodos de Penalización
Familia de algoritmos que integran las violaciones de restricciones en la función objetivo mediante términos de penalización, transformando el problema con restricciones en una optimización sin restricciones.
Región de Confianza
Región alrededor de la política actual donde las aproximaciones locales se consideran válidas, limitando las actualizaciones para respetar las restricciones de estabilidad y rendimiento.
Programación Dinámica con Restricciones
Extensión de la programación dinámica que incorpora restricciones sobre las recompensas acumuladas, requiriendo modificaciones de las ecuaciones de Bellman estándar.
Política de Respaldo
Política predefinida que garantiza el cumplimiento de las restricciones cuando la política principal corre el riesgo de violarlas, utilizada como mecanismo de seguridad en sistemas críticos.
Análisis de Sensibilidad de Restricciones
Estudio del impacto de las variaciones en los umbrales de restricciones sobre la política óptima, permitiendo ajustar finamente los compromisos entre rendimiento y seguridad.
Regularización de Restricciones
Técnica que añade términos de regularización basados en las restricciones para estabilizar el aprendizaje y evitar soluciones extremas que violen marginalmente las limitaciones.