Q-Learning Multiobjetivo

📖

termos

Q-Learning Multiobjetivo

Extensão do algoritmo Q-Learning tradicional que gerencia vetores de recompensas em vez de valores escalares, permitindo a otimização simultânea de múltiplos objetivos conflitantes.

📖

termos

Vetor de Q-valores

Estrutura de dados multidimensional onde cada elemento representa o valor Q para um objetivo específico, substituindo o valor escalar único do Q-Learning clássico.

📖

termos

Estratégia de resolução multiobjetivo onde os objetivos são ordenados por prioridade e otimizados sequencialmente, sendo cada objetivo considerado apenas após a otimização completa dos objetivos de prioridade superior.

📖

termos

Compromisso Multiobjetivo

Equilíbrio necessário entre a melhoria de certos objetivos e a degradação potencial de outros, inerente aos problemas de otimização com objetivos conflitantes.

📖

termos

Q-valor Ponderado

Combinação linear dos Q-valores individuais de cada objetivo utilizando pesos específicos para refletir a importância relativa de cada objetivo na decisão final.

📖

termos

Algoritmo de Pareto Q-Learning

Variante do Q-Learning que mantém um conjunto de políticas Pareto-ótimas e aprende simultaneamente os Q-valores para todos os compromissos possíveis entre objetivos.

📖

termos

Exploração Multiobjetivo

Estratégia de exploração adaptada a ambientes multiobjetivo que deve equilibrar a descoberta de compromissos entre diferentes objetivos, mantendo a eficiência da aprendizagem.

📖

termos

Equilíbrio de Nash em Q-Learning

Conceito da teoria dos jogos aplicado ao Q-Learning multiobjetivo onde nenhuma política pode unilateralmente melhorar seu desempenho em um objetivo sem degradar seu desempenho em outro.

📖

termos

Decomposição de Objetivos

Técnica que transforma um problema multi-objetivo em vários subproblemas mono-objetivo otimizados simultaneamente, facilitando a descoberta de soluções diversificadas na frente de Pareto.

📖

termos

Vetor de Recompensa

Vetor de recompensas multidimensional onde cada componente corresponde à recompensa associada a um objetivo específico, substituindo o sinal de recompensa escalar tradicional.

📖

termos

Adaptação do Espaço de Políticas

Mecanismo de adaptação dinâmica do espaço de políticas para gerir eficazmente a complexidade adicional introduzida pela natureza multi-objetivo do problema de aprendizagem.

Glossário IA