Glossário IA
O dicionário completo da Inteligência Artificial
Função de Recompensa Vetorial
Função de retorno que retorna um vetor de recompensas em vez de um escalar, permitindo capturar simultaneamente múltiplos objetivos conflitantes na aprendizagem por reforço.
Otimização de Política Multi-Objetivo
Processo de otimização simultânea de múltiplas políticas ou de uma única política visando otimizar múltiplas funções de valor correspondentes a diferentes objetivos.
RL com Espaço de Ação Contínuo
Paradigma de aprendizagem por reforço onde o agente pode escolher entre uma infinidade de ações contínuas, exigindo algoritmos de otimização adaptados como PPO ou SAC.
RL Baseado em Preferências
Abordagem onde as preferências humanas sobre os compromissos entre objetivos são integradas no processo de aprendizagem para guiar o agente em direção a soluções desejáveis da fronteira de Pareto.
Fronteira de Pareto Convexa
Fronteira de Pareto que apresenta uma convexidade matemática, permitindo o uso de métodos de escalarização linear para encontrar todas as soluções ótimas.
Método da Soma Ponderada
Técnica de escalarização que pondera cada objetivo com um coeficiente para criar uma função objetivo escalar, simples mas limitada às fronteiras de Pareto convexas.
Escalarização de Chebyshev
Método de escalarização que utiliza a norma de Tchebychev para garantir a descoberta de soluções Pareto-ótimas mesmo em fronteiras não-convexas.
Equilíbrio de Nash em MORL
Ponto de equilíbrio onde nenhum agente pode melhorar sua posição modificando unilateralmente sua estratégia, aplicado a jogos multi-objetivo com ações contínuas.
Ponderação Dinâmica
Estratégia adaptativa que modifica os pesos dos objetivos durante o aprendizado para explorar eficientemente a frente de Pareto e evitar ótimos locais.
Soluções Não-Dominadas
Conjunto de soluções onde nenhuma é estritamente melhor que outra em todos os objetivos, constituindo o conjunto de soluções Pareto-ótimas.
Ordenação Lexicográfica
Abordagem hierárquica onde os objetivos são otimizados sequencialmente por ordem de prioridade absoluta, sem compromisso entre objetivos de diferentes níveis.
Políticas Multi-Objetivo Estocásticas
Políticas probabilísticas em espaços de ação contínuos que otimizam simultaneamente múltiplos objetivos, frequentemente implementadas como distribuições gaussianas parametrizadas.
Otimização Contínua de Pareto
Otimização contínua da frente de Pareto durante o aprendizado, permitindo ao agente adaptar dinamicamente seus compromissos entre objetivos.
Actor-Critic Multi-Objetivo
Arquitetura algorítmica que combina ator e crítico adaptados a problemas multi-objetivo, com funções de valor vetoriais e políticas multi-objetivo.
Decomposição do Espaço de Ação
Técnica que divide o espaço de ação contínuo em subespaços especializados para cada objetivo, facilitando a otimização multi-objetivo em ambientes complexos.
Exploração-Explotação Multi-Objetivo
Dilema estendido a problemas multi-objetivo onde a exploração deve visar a descoberta de diversos compromissos ótimos em vez de uma única solução ótima.