🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Aprendizagem por Reforço Inverso Baseada em Modelo

Uma abordagem que infere uma função de recompensa a partir de demonstrações de especialistas usando um modelo do ambiente para gerar e avaliar trajetórias alternativas plausíveis.

📖
termos

Inferência de Função de Recompensa

O processo de estimar a função de recompensa subjacente de um agente observando seu comportamento, frequentemente formulado como um problema de otimização da verossimilhança das trajetórias demonstradas.

📖
termos

Modelo de Dinâmica Ambiental

Um modelo aprendido que prevê o próximo estado e a recompensa dado um estado e uma ação atuais, usado para simular trajetórias na aprendizagem por reforço baseada em modelo.

📖
termos

Geração de Trajetórias Plausíveis

A utilização de um modelo ambiental para criar sequências de estados-ações que são consistentes com a dinâmica do sistema e as políticas observadas, servindo como dados sintéticos para a inferência.

📖
termos

Viés de Imitação

Tendência de um agente aprendido por reforço inverso a super-imitar as ações demonstradas sem generalizar para estados não vistos, exigindo o uso de modelos para explorar além dos dados de especialistas.

📖
termos

Otimização da Verossimilhança das Trajetórias

Método de ajuste da função de recompensa para maximizar a probabilidade de que as trajetórias de especialistas observadas sejam ótimas sob a recompensa inferida.

📖
termos

Função de Recompensa Ambígua

Problema onde várias funções de recompensa diferentes podem explicar de forma equivalente as mesmas demonstrações de especialistas, exigindo restrições ou a priori para resolver a ambiguidade.

📖
termos

Conjunto de Trajetórias Sintéticas

Coleção de trajetórias geradas pelo modelo ambiental, usada para enriquecer os dados de demonstração e melhorar a robustez da inferência da recompensa.

📖
termos

Erro de Modelo Ambiental

Diferença entre a dinâmica real do ambiente e a prevista pelo modelo aprendido, que pode enviesar a inferência da recompensa se não corrigida.

📖
termos

Retropropagação através do Modelo

Técnica de cálculo dos gradientes da função de recompensa em relação aos seus parâmetros, propagando o erro através do modelo de dinâmica diferenciável.

📖
termos

Espaço de Políticas

Conjunto de todas as políticas possíveis π(a|s) que o agente pode adotar, no qual a inferência por reforço inverso procura identificar a política ótima compatível com as demonstrações.

📖
termos

Planejamento Monte Carlo Baseado em Modelo

Método que utiliza simulações estocásticas do modelo ambiental para avaliar diferentes funções de recompensa candidatas e selecionar aquela que melhor explica as demonstrações.

📖
termos

Função de Custo de Regularização

Termo adicionado ao objetivo de inferência para penalizar funções de recompensa complexas ou irrealistas, favorecendo soluções mais simples e generalizáveis.

📖
termos

Distribuição Posterior sobre as Recompensas

Abordagem bayesiana que mantém uma distribuição de probabilidade sobre as funções de recompensa possíveis em vez de uma estimativa pontual, permitindo quantificar a incerteza.

📖
termos

Horizonte de Simulação

Número máximo de passos futuros simulados pelo modelo ambiental durante a geração de trajetórias, influenciando o equilíbrio entre exploração e custo computacional.

📖
termos

Amostragem por Importância Baseada em Modelo

Técnica que utiliza o modelo para gerar trajetórias a partir de uma distribuição proposicional e depois as pondera pela sua verossimilhança sob a política especialista.

📖
termos

Método da Entropia Máxima

Princípio de inferência que escolhe a função de recompensa menos informativa (de entropia máxima) entre aquelas que explicam as demonstrações, evitando o sobreajuste.

🔍

Nenhum resultado encontrado