Glosario IA
El diccionario completo de la Inteligencia Artificial
Función de Recompensa Vectorial
Función de retorno que devuelve un vector de recompensas en lugar de un escalar, permitiendo capturar simultáneamente múltiples objetivos conflictivos en el aprendizaje por refuerzo.
Optimización de Políticas Multi-Objetivo
Proceso de optimización simultánea de múltiples políticas o de una sola política que busca optimizar múltiples funciones de valor correspondientes a diferentes objetivos.
Aprendizaje por Refuerzo con Espacio de Acciones Continuo
Paradigma de aprendizaje por refuerzo donde el agente puede elegir entre un infinito de acciones continuas, requiriendo algoritmos de optimización adaptados como PPO o SAC.
Aprendizaje por Refuerzo Basado en Preferencias
Enfoque donde las preferencias humanas sobre los compromisos entre objetivos se integran en el proceso de aprendizaje para guiar al agente hacia soluciones deseables del frente de Pareto.
Frente de Pareto Convexo
Frente de Pareto que presenta una convexidad matemática, permitiendo el uso de métodos de escalarización lineal para encontrar todas las soluciones óptimas.
Método de Suma Ponderada
Técnica de escalarización que pondera cada objetivo con un coeficiente para crear una función objetivo escalar, simple pero limitada a frentes de Pareto convexos.
Escalarización Chebyshev
Método de escalarización que utiliza la norma de Chebyshev para garantizar el descubrimiento de soluciones Pareto-óptimas incluso en frentes no-convexos.
Equilibrio de Nash en MORL
Punto de equilibrio donde ningún agente puede mejorar su posición modificando unilateralmente su estrategia, aplicado a juegos multi-objetivo con acciones continuas.
Ponderación Dinámica
Estrategia adaptativa que modifica los pesos de los objetivos durante el aprendizaje para explorar eficientemente el frente de Pareto y evitar los óptimos locales.
Soluciones No Dominadas
Conjunto de soluciones donde ninguna es estrictamente mejor que otra en todos los objetivos, constituyendo el conjunto de soluciones Pareto-óptimas.
Ordenamiento Lexicográfico
Enfoque jerárquico donde los objetivos se optimizan secuencialmente por orden de prioridad absoluta, sin compromisos entre objetivos de diferentes rangos.
Políticas Estocásticas Multiobjetivo
Políticas probabilísticas en espacios de acción continuos que optimizan simultáneamente múltiples objetivos, a menudo implementadas como distribuciones gaussianas parametrizadas.
Optimización Continua de Pareto
Optimización continua del frente de Pareto durante el aprendizaje, permitiendo al agente adaptar dinámicamente sus compromisos entre objetivos.
Actor-Crítico Multiobjetivo
Arquitectura algorítmica que combina actor y crítico adaptados a problemas multiobjetivo, con funciones de valor vectoriales y políticas multiobjetivo.
Descomposición del Espacio de Acción
Técnica que divide el espacio de acción continuo en subespacios especializados para cada objetivo, facilitando la optimización multiobjetivo en entornos complejos.
Exploración-Explotación Multiobjetivo
Dilema extendido a problemas multiobjetivo donde la exploración debe apuntar a descubrir diversos compromisos óptimos en lugar de una única solución óptima.