Aprendizagem por Reforço Inverso Baseada em Modelos

📖

termos

Aprendizagem por Reforço Inverso Baseada em Modelo

Uma abordagem que infere uma função de recompensa a partir de demonstrações de especialistas usando um modelo do ambiente para gerar e avaliar trajetórias alternativas plausíveis.

📖

termos

Inferência de Função de Recompensa

O processo de estimar a função de recompensa subjacente de um agente observando seu comportamento, frequentemente formulado como um problema de otimização da verossimilhança das trajetórias demonstradas.

📖

termos

Modelo de Dinâmica Ambiental

Um modelo aprendido que prevê o próximo estado e a recompensa dado um estado e uma ação atuais, usado para simular trajetórias na aprendizagem por reforço baseada em modelo.

📖

termos

Geração de Trajetórias Plausíveis

A utilização de um modelo ambiental para criar sequências de estados-ações que são consistentes com a dinâmica do sistema e as políticas observadas, servindo como dados sintéticos para a inferência.

📖

termos

Viés de Imitação

Tendência de um agente aprendido por reforço inverso a super-imitar as ações demonstradas sem generalizar para estados não vistos, exigindo o uso de modelos para explorar além dos dados de especialistas.

📖

termos

Otimização da Verossimilhança das Trajetórias

Método de ajuste da função de recompensa para maximizar a probabilidade de que as trajetórias de especialistas observadas sejam ótimas sob a recompensa inferida.

📖

termos

Função de Recompensa Ambígua

Problema onde várias funções de recompensa diferentes podem explicar de forma equivalente as mesmas demonstrações de especialistas, exigindo restrições ou a priori para resolver a ambiguidade.

📖

termos

Conjunto de Trajetórias Sintéticas

Coleção de trajetórias geradas pelo modelo ambiental, usada para enriquecer os dados de demonstração e melhorar a robustez da inferência da recompensa.

📖

termos

Erro de Modelo Ambiental

Diferença entre a dinâmica real do ambiente e a prevista pelo modelo aprendido, que pode enviesar a inferência da recompensa se não corrigida.

📖

termos

Retropropagação através do Modelo

Técnica de cálculo dos gradientes da função de recompensa em relação aos seus parâmetros, propagando o erro através do modelo de dinâmica diferenciável.

📖

termos

Espaço de Políticas

Conjunto de todas as políticas possíveis π(a|s) que o agente pode adotar, no qual a inferência por reforço inverso procura identificar a política ótima compatível com as demonstrações.

📖

termos

Planejamento Monte Carlo Baseado em Modelo

Método que utiliza simulações estocásticas do modelo ambiental para avaliar diferentes funções de recompensa candidatas e selecionar aquela que melhor explica as demonstrações.

📖

termos

Função de Custo de Regularização

Termo adicionado ao objetivo de inferência para penalizar funções de recompensa complexas ou irrealistas, favorecendo soluções mais simples e generalizáveis.

📖

termos

Distribuição Posterior sobre as Recompensas

Abordagem bayesiana que mantém uma distribuição de probabilidade sobre as funções de recompensa possíveis em vez de uma estimativa pontual, permitindo quantificar a incerteza.

📖

termos

Horizonte de Simulação

Número máximo de passos futuros simulados pelo modelo ambiental durante a geração de trajetórias, influenciando o equilíbrio entre exploração e custo computacional.

📖

termos

Amostragem por Importância Baseada em Modelo

Técnica que utiliza o modelo para gerar trajetórias a partir de uma distribuição proposicional e depois as pondera pela sua verossimilhança sob a política especialista.

📖

termos

Método da Entropia Máxima

Princípio de inferência que escolhe a função de recompensa menos informativa (de entropia máxima) entre aquelas que explicam as demonstrações, evitando o sobreajuste.

Glossário IA