RL Multi-Objetivo Contínuo

📖

termos

Função de Recompensa Vetorial

Função de retorno que retorna um vetor de recompensas em vez de um escalar, permitindo capturar simultaneamente múltiplos objetivos conflitantes na aprendizagem por reforço.

📖

termos

Otimização de Política Multi-Objetivo

Processo de otimização simultânea de múltiplas políticas ou de uma única política visando otimizar múltiplas funções de valor correspondentes a diferentes objetivos.

📖

termos

RL com Espaço de Ação Contínuo

Paradigma de aprendizagem por reforço onde o agente pode escolher entre uma infinidade de ações contínuas, exigindo algoritmos de otimização adaptados como PPO ou SAC.

📖

termos

RL Baseado em Preferências

Abordagem onde as preferências humanas sobre os compromissos entre objetivos são integradas no processo de aprendizagem para guiar o agente em direção a soluções desejáveis da fronteira de Pareto.

📖

termos

Fronteira de Pareto Convexa

Fronteira de Pareto que apresenta uma convexidade matemática, permitindo o uso de métodos de escalarização linear para encontrar todas as soluções ótimas.

📖

termos

Método da Soma Ponderada

Técnica de escalarização que pondera cada objetivo com um coeficiente para criar uma função objetivo escalar, simples mas limitada às fronteiras de Pareto convexas.

📖

termos

Escalarização de Chebyshev

Método de escalarização que utiliza a norma de Tchebychev para garantir a descoberta de soluções Pareto-ótimas mesmo em fronteiras não-convexas.

📖

termos

Equilíbrio de Nash em MORL

Ponto de equilíbrio onde nenhum agente pode melhorar sua posição modificando unilateralmente sua estratégia, aplicado a jogos multi-objetivo com ações contínuas.

📖

termos

Ponderação Dinâmica

Estratégia adaptativa que modifica os pesos dos objetivos durante o aprendizado para explorar eficientemente a frente de Pareto e evitar ótimos locais.

📖

termos

Soluções Não-Dominadas

Conjunto de soluções onde nenhuma é estritamente melhor que outra em todos os objetivos, constituindo o conjunto de soluções Pareto-ótimas.

📖

termos

Ordenação Lexicográfica

Abordagem hierárquica onde os objetivos são otimizados sequencialmente por ordem de prioridade absoluta, sem compromisso entre objetivos de diferentes níveis.

📖

termos

Políticas Multi-Objetivo Estocásticas

Políticas probabilísticas em espaços de ação contínuos que otimizam simultaneamente múltiplos objetivos, frequentemente implementadas como distribuições gaussianas parametrizadas.

📖

termos

Otimização Contínua de Pareto

Otimização contínua da frente de Pareto durante o aprendizado, permitindo ao agente adaptar dinamicamente seus compromissos entre objetivos.

📖

termos

Actor-Critic Multi-Objetivo

Arquitetura algorítmica que combina ator e crítico adaptados a problemas multi-objetivo, com funções de valor vetoriais e políticas multi-objetivo.

📖

termos

Decomposição do Espaço de Ação

Técnica que divide o espaço de ação contínuo em subespaços especializados para cada objetivo, facilitando a otimização multi-objetivo em ambientes complexos.

📖

termos

Exploração-Explotação Multi-Objetivo

Dilema estendido a problemas multi-objetivo onde a exploração deve visar a descoberta de diversos compromissos ótimos em vez de uma única solução ótima.

Glossário IA

Função de Recompensa Vetorial

Otimização de Política Multi-Objetivo

RL com Espaço de Ação Contínuo

RL Baseado em Preferências

Fronteira de Pareto Convexa

Método da Soma Ponderada

Escalarização de Chebyshev

Equilíbrio de Nash em MORL

Ponderação Dinâmica

Soluções Não-Dominadas

Ordenação Lexicográfica

Políticas Multi-Objetivo Estocásticas

Otimização Contínua de Pareto

Actor-Critic Multi-Objetivo

Decomposição do Espaço de Ação

Exploração-Explotação Multi-Objetivo

Nenhum resultado encontrado