Q-Learning Multiobjetivo

📖

términos

Q-Learning Multi-Objetivo

Extensión del algoritmo Q-Learning tradicional que gestiona vectores de recompensas en lugar de valores escalares, permitiendo la optimización simultánea de múltiples objetivos conflictivos.

📖

términos

Vector de Q-valores

Estructura de datos multidimensional donde cada elemento representa el valor Q para un objetivo específico, reemplazando el valor escalar único del Q-Learning clásico.

📖

términos

Estrategia de resolución multi-objetivo donde los objetivos son ordenados por prioridad y optimizados secuencialmente, cada objetivo solo es considerado después de la optimización completa de los objetivos de mayor prioridad.

📖

términos

Compromiso Multi-objetivo

Equilibrio necesario entre la mejora de ciertos objetivos y la degradación potencial de otros, inherente a los problemas de optimización con objetivos conflictivos.

📖

términos

Q-valor Ponderado

Combinación lineal de los Q-valores individuales de cada objetivo utilizando pesos específicos para reflejar la importancia relativa de cada objetivo en la decisión final.

📖

términos

Algoritmo de Pareto Q-Learning

Variante del Q-Learning que mantiene un conjunto de políticas Pareto-óptimas y aprende simultáneamente los Q-valores para todos los compromisos posibles entre objetivos.

📖

términos

Exploración Multi-objetivo

Estrategia de exploración adaptada a entornos multi-objetivo que debe equilibrar el descubrimiento de compromisos entre diferentes objetivos mientras mantiene la eficiencia del aprendizaje.

📖

términos

Equilibrio de Nash en Q-Learning

Concepto de teoría de juegos aplicado al Q-Learning multi-objetivo donde ninguna política puede mejorar unilateralmente su rendimiento en un objetivo sin degradar su rendimiento en otro.

📖

términos

Descomposición de Objetivos

Técnica que transforma un problema multiobjetivo en varios subproblemas monoobjetivo optimizados simultáneamente, facilitando el descubrimiento de soluciones diversificadas en el frente de Pareto.

📖

términos

Vector de Recompensa

Vector de recompensas multidimensional donde cada componente corresponde a la recompensa asociada a un objetivo específico, reemplazando la señal de recompensa escalar tradicional.

📖

términos

Adaptación del Espacio de Políticas

Mecanismo de adaptación dinámica del espacio de políticas para gestionar eficientemente la complejidad adicional introducida por la naturaleza multiobjetivo del problema de aprendizaje.

Glosario IA