RL Profundo Multi-Objetivo

📖

termos

Política de Ação Multi-Objetivo

Estratégia que mapeia estados para ações considerando simultaneamente múltiplos objetivos. Ao contrário das políticas tradicionais de objetivo único, ela deve equilibrar as preferências entre diferentes metas, muitas vezes contraditórias.

📖

termos

Função de Valor Vetorial

Extensão da função de valor Q na aprendizagem por reforço, onde cada par estado-ação é associado a um vetor de valores, um por objetivo. Esta representação permite capturar os compromissos entre diferentes objetivos sem a necessidade de agregação a priori.

📖

termos

Escalarização Ponderada

Técnica de transformação de um problema multi-objetivo em um problema de objetivo único, atribuindo pesos a cada objetivo e combinando-os linearmente. Esta abordagem permite explorar diferentes soluções na fronteira de Pareto, modificando os pesos.

📖

termos

DQN Multi-Objetivo

Arquitetura de Deep Q-Network adaptada para problemas multi-objetivo, utilizando redes neurais profundas para aproximar funções Q-vetoriais. A rede aprende a estimar simultaneamente os valores de retorno para cada objetivo, mantendo a consistência dos compromissos.

📖

termos

Recompensa Vetorial

Estrutura de recompensa onde cada ação em um estado gera um vetor de recompensas, em vez de um único valor escalar. Cada componente do vetor corresponde ao progresso em um objetivo específico do problema.

📖

termos

PPO Multi-Objetivo

Adaptação do algoritmo Proximal Policy Optimization para ambientes multi-objetivo, otimizando simultaneamente várias funções objetivo. O algoritmo mantém restrições de proximidade enquanto explora o espaço de compromissos entre os objetivos.

📖

termos

Compromisso de Objetivos

Conceito que descreve os compromissos necessários entre diferentes objetivos quando a melhoria de um objetivo implica necessariamente a degradação de outro. A análise dos compromissos é essencial para identificar soluções Pareto-ótimas.

📖

termos

Contínuo de Políticas Pareto-Ótimas

Conjunto contínuo de políticas de ação que são todas Pareto-ótimas, representando diferentes preferências entre os objetivos. Este contínuo permite aos tomadores de decisão selecionar a política que melhor corresponde às suas prioridades.

📖

termos

Meta-aprendizagem Multiobjetivo

Abordagem onde o agente aprende a aprender a resolver problemas multiobjetivo, descobrindo estratégias de adaptação gerais. A meta-aprendizagem permite transferir eficientemente o conhecimento sobre os compromissos entre diferentes problemas.

📖

termos

Equilíbrio de Nash Multiobjetivo

Conceito da teoria dos jogos aplicado a problemas multiobjetivo, onde nenhum agente pode melhorar sua posição em um objetivo sem que isso afete negativamente os outros. O equilíbrio representa uma solução estável em um contexto multiagente multiobjetivo.

📖

termos

Agregação Não Linear

Métodos de combinação de objetivos que utilizam funções não lineares em vez de ponderações lineares para capturar relações complexas entre objetivos. Essas abordagens permitem modelar preferências mais sofisticadas e interações não aditivas.

Glossário IA

Política de Ação Multi-Objetivo

Função de Valor Vetorial

Escalarização Ponderada

DQN Multi-Objetivo

Recompensa Vetorial

PPO Multi-Objetivo

Compromisso de Objetivos

Contínuo de Políticas Pareto-Ótimas

Meta-aprendizagem Multiobjetivo

Equilíbrio de Nash Multiobjetivo

Agregação Não Linear

Nenhum resultado encontrado