Glosario IA
El diccionario completo de la Inteligencia Artificial
Q-Learning Multi-Objetivo
Extensión del algoritmo Q-Learning tradicional que gestiona vectores de recompensas en lugar de valores escalares, permitiendo la optimización simultánea de múltiples objetivos conflictivos.
Vector de Q-valores
Estructura de datos multidimensional donde cada elemento representa el valor Q para un objetivo específico, reemplazando el valor escalar único del Q-Learning clásico.
Enfoque Lexicográfico
Estrategia de resolución multi-objetivo donde los objetivos son ordenados por prioridad y optimizados secuencialmente, cada objetivo solo es considerado después de la optimización completa de los objetivos de mayor prioridad.
Compromiso Multi-objetivo
Equilibrio necesario entre la mejora de ciertos objetivos y la degradación potencial de otros, inherente a los problemas de optimización con objetivos conflictivos.
Q-valor Ponderado
Combinación lineal de los Q-valores individuales de cada objetivo utilizando pesos específicos para reflejar la importancia relativa de cada objetivo en la decisión final.
Algoritmo de Pareto Q-Learning
Variante del Q-Learning que mantiene un conjunto de políticas Pareto-óptimas y aprende simultáneamente los Q-valores para todos los compromisos posibles entre objetivos.
Exploración Multi-objetivo
Estrategia de exploración adaptada a entornos multi-objetivo que debe equilibrar el descubrimiento de compromisos entre diferentes objetivos mientras mantiene la eficiencia del aprendizaje.
Equilibrio de Nash en Q-Learning
Concepto de teoría de juegos aplicado al Q-Learning multi-objetivo donde ninguna política puede mejorar unilateralmente su rendimiento en un objetivo sin degradar su rendimiento en otro.
Descomposición de Objetivos
Técnica que transforma un problema multiobjetivo en varios subproblemas monoobjetivo optimizados simultáneamente, facilitando el descubrimiento de soluciones diversificadas en el frente de Pareto.
Vector de Recompensa
Vector de recompensas multidimensional donde cada componente corresponde a la recompensa asociada a un objetivo específico, reemplazando la señal de recompensa escalar tradicional.
Adaptación del Espacio de Políticas
Mecanismo de adaptación dinámica del espacio de políticas para gestionar eficientemente la complejidad adicional introducida por la naturaleza multiobjetivo del problema de aprendizaje.