Aprendizagem por Curiosidade Baseada em Modelo

📖

termos

Modelo de Dinâmica

Um modelo aprendido pelo agente que prevê a evolução do ambiente, ou seja, o próximo estado ou a próxima observação dado o estado atual e a ação empreendida. A qualidade deste modelo é central para a aprendizagem por curiosidade baseada em modelo.

📖

termos

Módulo de Curiosidade Intrínseca (ICM)

Uma arquitetura de rede neural específica que combina um módulo de previsão do próximo estado em um espaço de características e um módulo inverso para prever a ação. O erro de previsão do módulo direto é usado como recompensa intrínseca.

📖

termos

Exploração por Curiosidade

Uma estratégia de exploração onde um agente é motivado a visitar estados do ambiente que maximizam sua aprendizagem, medida por sinais internos como o erro de previsão. O agente busca ativamente o que não sabe.

📖

termos

Problema da Televisão Aleatória

Um desafio importante na aprendizagem por curiosidade onde um agente pode ficar obcecado por fontes de entropia imprevisíveis mas inúteis, como uma tela de estática televisiva. Isso leva a uma alta recompensa intrínseca sem aprendizagem significativa sobre a dinâmica do ambiente.

📖

termos

Espaço de Estados Latentes

Uma representação compactada e abstrata do ambiente, aprendida por uma rede neural, na qual o modelo de dinâmica aprende a prever. Trabalhar neste espaço reduz a complexidade e ajuda a focar nas características relevantes para a previsão.

📖

termos

Modelagem da Recompensa Intrínseca

O processo de design e ponderação do sinal de recompensa intrínseca, frequentemente combinando-o com a recompensa extrínseca da tarefa. Uma boa modelagem é crucial para equilibrar exploração e explotação.

📖

termos

Aprendizagem do Modelo

O processo pelo qual um agente de MBRL melhora seu modelo de dinâmica interagindo com o ambiente. Este processo é iterativo: o modelo é usado para explorar, e os novos dados coletados servem para refinar o modelo.

📖

termos

Surpresa Modal

Um conceito que designa uma situação onde a experiência do agente contradiz as expectativas de seu modelo interno do mundo. Em sistemas baseados em modelo, a surpresa é diretamente medida pelo erro de previsão do modelo.

📖

termos

Rede de Predição

O componente neural do modelo de dinâmica responsável por gerar a predição do próximo estado latente. Seu desempenho, avaliado por uma função de perda, determina diretamente o sinal de curiosidade.

📖

termos

Estrutura de Aprendizagem por Reforço Intrínseco

Uma estrutura geral para aprendizagem por reforço onde a função objetivo do agente é uma soma ponderada de uma recompensa extrínseca (ligada à tarefa) e uma recompensa intrínseca (ligada à exploração).

📖

termos

Exploração por Maximização da Informação Variacional (VIME)

Um método formal que utiliza inferência variacional para maximizar a informação obtida sobre os parâmetros do modelo do ambiente. Ele fornece uma medida de curiosidade teoricamente bem fundamentada que evita certas armadilhas.

📖

termos

Limite de Curiosidade

Um mecanismo ou restrição teórica que visa limitar a curiosidade do agente para direcioná-la a aspectos do ambiente que são ao mesmo tempo desconhecidos e controláveis/aprendíveis. Isso ajuda a mitigar o problema da televisão aleatória.

Glossário IA

Modelo de Dinâmica

Módulo de Curiosidade Intrínseca (ICM)

Exploração por Curiosidade

Problema da Televisão Aleatória

Espaço de Estados Latentes

Modelagem da Recompensa Intrínseca

Aprendizagem do Modelo

Surpresa Modal

Rede de Predição

Estrutura de Aprendizagem por Reforço Intrínseco

Exploração por Maximização da Informação Variacional (VIME)

Limite de Curiosidade

Nenhum resultado encontrado