Deep RL Multi-Objetivos

📖

términos

Política de Acción Multi-Objetivo

Estrategia que mapea los estados a acciones considerando simultáneamente múltiples objetivos. A diferencia de las políticas tradicionales de mono-objetivo, debe equilibrar las preferencias entre diferentes metas a menudo contradictorias.

📖

términos

Función de Valor Vectorial

Extensión de la función de valor Q en aprendizaje por refuerzo donde cada estado-acción está asociado con un vector de valores, uno por objetivo. Esta representación permite capturar los compromisos entre diferentes objetivos sin necesidad de agregación a priori.

📖

términos

Escalación Ponderada

Técnica de transformación de un problema multi-objetivo en un problema mono-objetivo asignando pesos a cada objetivo y combinándolos linealmente. Este enfoque permite explorar diferentes soluciones en el frente de Pareto modificando los pesos.

📖

términos

DQN Multi-Objetivo

Arquitectura de Deep Q-Network adaptada para problemas multi-objetivo utilizando redes neuronales profundas para aproximar las funciones Q-vectoriales. La red aprende a estimar simultáneamente los valores de retorno para cada objetivo manteniendo la coherencia de los compromisos.

📖

términos

Recompensa Vectorial

Estructura de recompensa donde cada acción en un estado genera un vector de recompensas en lugar de un único valor escalar. Cada componente del vector corresponde al progreso en un objetivo específico del problema.

📖

términos

PPO Multi-Objetivo

Adaptación del algoritmo Proximal Policy Optimization para entornos multi-objetivo, optimizando simultáneamente múltiples funciones objetivo. El algoritmo mantiene restricciones de proximidad mientras explora el espacio de compromisos entre objetivos.

📖

términos

Trade-off de Objetivos

Concepto que describe los compromisos necesarios entre diferentes objetivos cuando la mejora de un objetivo necesariamente conduce a la degradación de otro. El análisis de los trade-offs es esencial para identificar las soluciones Pareto-óptimas.

📖

términos

Continuo de Políticas Pareto-Óptimas

Conjunto continuo de políticas de acción que son todas Pareto-óptimas, representando diferentes preferencias entre los objetivos. Este continuo permite a los tomadores de decisiones seleccionar la política que mejor corresponda a sus prioridades.

📖

términos

Meta-aprendizaje Multi-Objetivo

Enfoque donde el agente aprende a aprender a resolver problemas multi-objetivo descubriendo estrategias de adaptación generales. El meta-aprendizaje permite transferir eficazmente los conocimientos sobre los compromisos entre diferentes problemas.

📖

términos

Equilibrio de Nash Multi-Objetivo

Concepto de teoría de juegos aplicado a problemas multi-objetivo donde ningún agente puede mejorar su posición en un objetivo sin que ello afecte negativamente a los demás. El equilibrio representa una solución estable en un contexto multi-agentes multi-objetivo.

📖

términos

Agregación No-Lineal

Métodos de combinación de objetivos que utilizan funciones no-lineales en lugar de ponderaciones lineales para capturar relaciones complejas entre objetivos. Estos enfoques permiten modelar preferencias más sofisticadas e interacciones no-aditivas.

Glosario IA

Política de Acción Multi-Objetivo

Función de Valor Vectorial

Escalación Ponderada

DQN Multi-Objetivo

Recompensa Vectorial

PPO Multi-Objetivo

Trade-off de Objetivos

Continuo de Políticas Pareto-Óptimas

Meta-aprendizaje Multi-Objetivo

Equilibrio de Nash Multi-Objetivo

Agregación No-Lineal

No se encontraron resultados