Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizagem por Reforço Inverso Baseada em Modelo
Uma abordagem que infere uma função de recompensa a partir de demonstrações de especialistas usando um modelo do ambiente para gerar e avaliar trajetórias alternativas plausíveis.
Inferência de Função de Recompensa
O processo de estimar a função de recompensa subjacente de um agente observando seu comportamento, frequentemente formulado como um problema de otimização da verossimilhança das trajetórias demonstradas.
Modelo de Dinâmica Ambiental
Um modelo aprendido que prevê o próximo estado e a recompensa dado um estado e uma ação atuais, usado para simular trajetórias na aprendizagem por reforço baseada em modelo.
Geração de Trajetórias Plausíveis
A utilização de um modelo ambiental para criar sequências de estados-ações que são consistentes com a dinâmica do sistema e as políticas observadas, servindo como dados sintéticos para a inferência.
Viés de Imitação
Tendência de um agente aprendido por reforço inverso a super-imitar as ações demonstradas sem generalizar para estados não vistos, exigindo o uso de modelos para explorar além dos dados de especialistas.
Otimização da Verossimilhança das Trajetórias
Método de ajuste da função de recompensa para maximizar a probabilidade de que as trajetórias de especialistas observadas sejam ótimas sob a recompensa inferida.
Função de Recompensa Ambígua
Problema onde várias funções de recompensa diferentes podem explicar de forma equivalente as mesmas demonstrações de especialistas, exigindo restrições ou a priori para resolver a ambiguidade.
Conjunto de Trajetórias Sintéticas
Coleção de trajetórias geradas pelo modelo ambiental, usada para enriquecer os dados de demonstração e melhorar a robustez da inferência da recompensa.
Erro de Modelo Ambiental
Diferença entre a dinâmica real do ambiente e a prevista pelo modelo aprendido, que pode enviesar a inferência da recompensa se não corrigida.
Retropropagação através do Modelo
Técnica de cálculo dos gradientes da função de recompensa em relação aos seus parâmetros, propagando o erro através do modelo de dinâmica diferenciável.
Espaço de Políticas
Conjunto de todas as políticas possíveis π(a|s) que o agente pode adotar, no qual a inferência por reforço inverso procura identificar a política ótima compatível com as demonstrações.
Planejamento Monte Carlo Baseado em Modelo
Método que utiliza simulações estocásticas do modelo ambiental para avaliar diferentes funções de recompensa candidatas e selecionar aquela que melhor explica as demonstrações.
Função de Custo de Regularização
Termo adicionado ao objetivo de inferência para penalizar funções de recompensa complexas ou irrealistas, favorecendo soluções mais simples e generalizáveis.
Distribuição Posterior sobre as Recompensas
Abordagem bayesiana que mantém uma distribuição de probabilidade sobre as funções de recompensa possíveis em vez de uma estimativa pontual, permitindo quantificar a incerteza.
Horizonte de Simulação
Número máximo de passos futuros simulados pelo modelo ambiental durante a geração de trajetórias, influenciando o equilíbrio entre exploração e custo computacional.
Amostragem por Importância Baseada em Modelo
Técnica que utiliza o modelo para gerar trajetórias a partir de uma distribuição proposicional e depois as pondera pela sua verossimilhança sob a política especialista.
Método da Entropia Máxima
Princípio de inferência que escolhe a função de recompensa menos informativa (de entropia máxima) entre aquelas que explicam as demonstrações, evitando o sobreajuste.