Glossário IA
O dicionário completo da Inteligência Artificial
Modelo de Dinâmica
Um modelo aprendido pelo agente que prevê a evolução do ambiente, ou seja, o próximo estado ou a próxima observação dado o estado atual e a ação empreendida. A qualidade deste modelo é central para a aprendizagem por curiosidade baseada em modelo.
Módulo de Curiosidade Intrínseca (ICM)
Uma arquitetura de rede neural específica que combina um módulo de previsão do próximo estado em um espaço de características e um módulo inverso para prever a ação. O erro de previsão do módulo direto é usado como recompensa intrínseca.
Exploração por Curiosidade
Uma estratégia de exploração onde um agente é motivado a visitar estados do ambiente que maximizam sua aprendizagem, medida por sinais internos como o erro de previsão. O agente busca ativamente o que não sabe.
Problema da Televisão Aleatória
Um desafio importante na aprendizagem por curiosidade onde um agente pode ficar obcecado por fontes de entropia imprevisíveis mas inúteis, como uma tela de estática televisiva. Isso leva a uma alta recompensa intrínseca sem aprendizagem significativa sobre a dinâmica do ambiente.
Espaço de Estados Latentes
Uma representação compactada e abstrata do ambiente, aprendida por uma rede neural, na qual o modelo de dinâmica aprende a prever. Trabalhar neste espaço reduz a complexidade e ajuda a focar nas características relevantes para a previsão.
Modelagem da Recompensa Intrínseca
O processo de design e ponderação do sinal de recompensa intrínseca, frequentemente combinando-o com a recompensa extrínseca da tarefa. Uma boa modelagem é crucial para equilibrar exploração e explotação.
Aprendizagem do Modelo
O processo pelo qual um agente de MBRL melhora seu modelo de dinâmica interagindo com o ambiente. Este processo é iterativo: o modelo é usado para explorar, e os novos dados coletados servem para refinar o modelo.
Surpresa Modal
Um conceito que designa uma situação onde a experiência do agente contradiz as expectativas de seu modelo interno do mundo. Em sistemas baseados em modelo, a surpresa é diretamente medida pelo erro de previsão do modelo.
Rede de Predição
O componente neural do modelo de dinâmica responsável por gerar a predição do próximo estado latente. Seu desempenho, avaliado por uma função de perda, determina diretamente o sinal de curiosidade.
Estrutura de Aprendizagem por Reforço Intrínseco
Uma estrutura geral para aprendizagem por reforço onde a função objetivo do agente é uma soma ponderada de uma recompensa extrínseca (ligada à tarefa) e uma recompensa intrínseca (ligada à exploração).
Exploração por Maximização da Informação Variacional (VIME)
Um método formal que utiliza inferência variacional para maximizar a informação obtida sobre os parâmetros do modelo do ambiente. Ele fornece uma medida de curiosidade teoricamente bem fundamentada que evita certas armadilhas.
Limite de Curiosidade
Um mecanismo ou restrição teórica que visa limitar a curiosidade do agente para direcioná-la a aspectos do ambiente que são ao mesmo tempo desconhecidos e controláveis/aprendíveis. Isso ajuda a mitigar o problema da televisão aleatória.