MARL Parcialmente Observável

📖

termos

POMDP (Processo de Decisão de Markov Parcialmente Observável)

Estrutura teórica que modela ambientes onde o agente percebe apenas uma observação parcial do estado real, exigindo inferência probabilística sobre o estado oculto para tomar decisões ótimas.

📖

termos

Espaço de Observação

Conjunto dos sinais sensoriais parciais que cada agente pode perceber do ambiente, representando uma informação incompleta do estado global do sistema.

📖

termos

Estado de Crença

Distribuição de probabilidade sobre o espaço de estados ocultos que um agente mantém e atualiza a partir de suas observações sucessivas para representar sua incerteza sobre o estado real do ambiente.

📖

termos

Protocolo de Comunicação

Mecanismo que define quando, como e quais informações os agentes podem trocar entre si para coordenar suas ações em um ambiente parcialmente observável.

📖

termos

Treinamento Centralizado com Execução Descentralizada

Abordagem onde os agentes são treinados usando informações globais (estados, ações de todos) mas executam suas políticas individualmente usando apenas suas observações locais.

📖

termos

Fatorização da Função de Valor

Técnica que decompõe a função de valor global em soma de funções de valor individuais ou locais, permitindo o aprendizado descentralizado enquanto preserva a coerência global.

📖

termos

Modelagem de Adversários

Processo de inferência das políticas ou intenções de outros agentes baseado em seus comportamentos observados, crucial para a tomada de decisão em ambientes competitivos ou cooperativos.

📖

termos

Problema de Alocação de Crédito

Dificuldade em atribuir corretamente a recompensa global a cada agente em um sistema multiagente, particularmente complexa quando as observações são parciais e as ações são interdependentes.

📖

termos

Aprendizado de Ação Conjunta

Método onde os agentes aprendem a coordenar suas ações modelando explicitamente o impacto das ações combinadas na recompensa global, apesar da observabilidade parcial.

📖

termos

Estimativa de Estado

Processo algorítmico que permite a um agente inferir o estado global mais provável a partir de suas observações locais e de seu modelo do ambiente.

📖

termos

Compartilhamento de Informação

Estratégia que define como os agentes distribuem e agregam suas observações locais para melhorar o conhecimento coletivo do estado do ambiente.

📖

termos

Histórico de Observação Local

Sequência temporal das observações passadas de um agente, usada como contexto adicional para compensar a falta de informação sobre o estado global atual.

📖

termos

Observabilidade Parcial Multiagente

Condição onde nenhum agente individual pode observar o estado completo do sistema, exigindo estratégias de coordenação e inferência para alcançar desempenhos ótimos.

📖

termos

Política Descentralizada

Função de decisão para cada agente que mapeia seu histórico de observações locais para uma ação, sem dependência direta das informações de outros agentes durante a execução.

📖

termos

Conhecimento Comum

Informação que todos os agentes conhecem e sabem que os outros também conhecem, essencial para a coordenação em ambientes parcialmente observáveis.

📖

termos

Grafo de Coordenação

Estrutura que representa as dependências de interação entre agentes, permitindo fatorar o problema de decisão global em subproblemas locais mais fáceis de resolver.

Glossário IA

POMDP (Processo de Decisão de Markov Parcialmente Observável)

Espaço de Observação

Estado de Crença

Protocolo de Comunicação

Treinamento Centralizado com Execução Descentralizada

Fatorização da Função de Valor

Modelagem de Adversários

Problema de Alocação de Crédito

Aprendizado de Ação Conjunta

Estimativa de Estado

Compartilhamento de Informação

Histórico de Observação Local

Observabilidade Parcial Multiagente

Política Descentralizada

Conhecimento Comum

Grafo de Coordenação

Nenhum resultado encontrado