Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizagem por Reforço Profundo Baseado em Modelo
Abordagem de aprendizagem por reforço onde o agente constrói um modelo interno do ambiente para simular e planear as suas ações, reduzindo assim a necessidade de interações reais com o ambiente.
Modelo do Mundo
Representação neuronal completa do ambiente aprendendo simultaneamente a dinâmica do sistema, os estados latentes e as recompensas para permitir ao agente raciocinar num espaço simulado.
Controle Preditivo de Modelo (MPC)
Estratégia de controlo utilizando o modelo aprendido para otimizar uma sequência de ações futuras num horizonte temporal limitado, reavaliando continuamente o plano ótimo a cada passo de tempo.
Arquitetura Dyna
Framework integrando aprendizagem por reforço direto e indireto, onde as experiências simuladas geradas pelo modelo complementam os dados reais para acelerar a aprendizagem.
Agentes Aumentados com Imaginação (I2A)
Arquitetura de agente combinando política padrão com um percurso de imaginação utilizando o modelo ambiental para antecipar as consequências futuras antes de tomar uma decisão.
PlaNet
Algoritmo aprendendo um modelo de dinâmica num espaço latente compacto para resolver tarefas de controlo contínuas inteiramente por planeamento, sem política explícita.
Dreamer
Agente aprendendo um mundo no espaço dos sonhos onde ele treina em trajectórias imaginadas para aprender comportamentos e valores de forma totalmente latente.
MuZero
Algoritmo revolucionário aprendendo simultaneamente o modelo, a política e o valor sem conhecimento prévio das regras do ambiente, combinando MCTS e aprendizagem profunda.
Dinâmicas do Espaço Latente
Modelação da evolução temporal dos estados num espaço de representação comprimido onde as dinâmicas são mais simples e mais estáveis do que no espaço de observação bruto.
Incerteza do Modelo
Quantificação da incerteza do modelo ambiental, crucial para identificar as zonas onde o modelo é fiável e aquelas que necessitam de mais exploração ou interações reais.
Conjunto de Modelos
Técnica que utiliza vários modelos ambientais independentes para estimar a incerteza epistémica e melhorar a robustez das previsões para o planeamento.
Planeamento com Modelos Aprendidos
Processo de pesquisa sequencial que utiliza o modelo aprendido para avaliar diferentes sequências de ações futuras e selecionar a ótima segundo as previsões de recompensa.
Expansão de Valor Baseada em Modelo (MVE)
Técnica que utiliza o modelo para extrapolar os retornos para além do horizonte real, combinando dados reais e simulados para estimar com mais precisão os valores a longo prazo.
Otimização de Política Baseada em Modelo (MBPO)
Algoritmo híbrido que utiliza modelos de curto alcance para gerar dados sintéticos mantendo um conjunto de dados reais para estabilizar o aprendizado da política.
Otimização de Trajetória
Otimização direta das sequências de estados-ações utilizando o gradiente do modelo para encontrar trajetórias ótimas, particularmente eficaz para sistemas contínuos.
Motores de Física Diferenciáveis
Simuladores físicos implementados com operações diferenciáveis que permitem a propagação dos gradientes através das simulações para o aprendizado por reforço baseado em modelo.
Modelo de Dinâmica Direta
Modelo preditivo que aprende a transição de estado s_{t+1} = f(s_t, a_t) para antecipar as consequências futuras das ações no ambiente.
Modelo de Dinâmica Inversa
Modelo que aprende a inferir a ação a_t = f^{-1}(s_t, s_{t+1}) que levou de um estado a outro, útil para aprendizagem por imitação e representação de ações.
Exploração Baseada em Modelo
Estratégia de exploração que utiliza a incerteza do modelo para guiar o agente em direção aos estados onde o modelo tem menos confiança, favorecendo o aprendizado de uma representação mais completa.