RL Multi-Objetivo Continuo

📖

términos

Función de Recompensa Vectorial

Función de retorno que devuelve un vector de recompensas en lugar de un escalar, permitiendo capturar simultáneamente múltiples objetivos conflictivos en el aprendizaje por refuerzo.

📖

términos

Optimización de Políticas Multi-Objetivo

Proceso de optimización simultánea de múltiples políticas o de una sola política que busca optimizar múltiples funciones de valor correspondientes a diferentes objetivos.

📖

términos

Aprendizaje por Refuerzo con Espacio de Acciones Continuo

Paradigma de aprendizaje por refuerzo donde el agente puede elegir entre un infinito de acciones continuas, requiriendo algoritmos de optimización adaptados como PPO o SAC.

📖

términos

Aprendizaje por Refuerzo Basado en Preferencias

Enfoque donde las preferencias humanas sobre los compromisos entre objetivos se integran en el proceso de aprendizaje para guiar al agente hacia soluciones deseables del frente de Pareto.

📖

términos

Frente de Pareto Convexo

Frente de Pareto que presenta una convexidad matemática, permitiendo el uso de métodos de escalarización lineal para encontrar todas las soluciones óptimas.

📖

términos

Método de Suma Ponderada

Técnica de escalarización que pondera cada objetivo con un coeficiente para crear una función objetivo escalar, simple pero limitada a frentes de Pareto convexos.

📖

términos

Escalarización Chebyshev

Método de escalarización que utiliza la norma de Chebyshev para garantizar el descubrimiento de soluciones Pareto-óptimas incluso en frentes no-convexos.

📖

términos

Equilibrio de Nash en MORL

Punto de equilibrio donde ningún agente puede mejorar su posición modificando unilateralmente su estrategia, aplicado a juegos multi-objetivo con acciones continuas.

📖

términos

Ponderación Dinámica

Estrategia adaptativa que modifica los pesos de los objetivos durante el aprendizaje para explorar eficientemente el frente de Pareto y evitar los óptimos locales.

📖

términos

Soluciones No Dominadas

Conjunto de soluciones donde ninguna es estrictamente mejor que otra en todos los objetivos, constituyendo el conjunto de soluciones Pareto-óptimas.

📖

términos

Ordenamiento Lexicográfico

Enfoque jerárquico donde los objetivos se optimizan secuencialmente por orden de prioridad absoluta, sin compromisos entre objetivos de diferentes rangos.

📖

términos

Políticas Estocásticas Multiobjetivo

Políticas probabilísticas en espacios de acción continuos que optimizan simultáneamente múltiples objetivos, a menudo implementadas como distribuciones gaussianas parametrizadas.

📖

términos

Optimización Continua de Pareto

Optimización continua del frente de Pareto durante el aprendizaje, permitiendo al agente adaptar dinámicamente sus compromisos entre objetivos.

📖

términos

Actor-Crítico Multiobjetivo

Arquitectura algorítmica que combina actor y crítico adaptados a problemas multiobjetivo, con funciones de valor vectoriales y políticas multiobjetivo.

📖

términos

Descomposición del Espacio de Acción

Técnica que divide el espacio de acción continuo en subespacios especializados para cada objetivo, facilitando la optimización multiobjetivo en entornos complejos.

📖

términos

Exploración-Explotación Multiobjetivo

Dilema extendido a problemas multiobjetivo donde la exploración debe apuntar a descubrir diversos compromisos óptimos en lugar de una única solución óptima.

Glosario IA

Función de Recompensa Vectorial

Optimización de Políticas Multi-Objetivo

Aprendizaje por Refuerzo con Espacio de Acciones Continuo

Aprendizaje por Refuerzo Basado en Preferencias

Frente de Pareto Convexo

Método de Suma Ponderada

Escalarización Chebyshev

Equilibrio de Nash en MORL

Ponderación Dinámica

Soluciones No Dominadas

Ordenamiento Lexicográfico

Políticas Estocásticas Multiobjetivo

Optimización Continua de Pareto

Actor-Crítico Multiobjetivo

Descomposición del Espacio de Acción

Exploración-Explotación Multiobjetivo

No se encontraron resultados