Glossário IA
O dicionário completo da Inteligência Artificial
DAgger (Dataset Aggregation)
Algoritmo de aprendizagem por imitação que coleta iterativamente dados, consultando um especialista sobre os estados visitados pela política atual. Esta abordagem reduz o desvio entre a distribuição de treinamento e a distribuição de implantação.
Agregação de Dados
Processo de coleta e combinação de múltiplos conjuntos de dados provenientes de diferentes fontes ou iterações de aprendizagem. No DAgger, isso permite melhorar progressivamente a robustez da política aprendida.
Coleta Iterativa
Metodologia de coleta de dados realizada em vários ciclos sucessivos, cada ciclo utilizando as informações dos ciclos anteriores. Esta abordagem permite refinar continuamente a política e explorar novos estados.
Política Comportamental
Estratégia ou distribuição de probabilidades sobre as ações que o agente segue durante a coleta de dados no DAgger. Ela evolui ao longo das iterações para se aproximar da política ótima.
Distribuição de Estados
Conjunto probabilístico dos estados que o agente é propenso a visitar durante sua execução. O DAgger busca alinhar essa distribuição com a encontrada na implantação real.
Viés de Distribuição
Diferença entre a distribuição dos dados de treinamento e a encontrada durante a implantação em produção. O DAgger reduz esse viés coletando dados sobre os estados realmente visitados pela política atual.
Correção de Erro
Processo pelo qual um especialista fornece as ações corretas quando a política atual do agente comete erros. Essas correções servem como novos dados de treinamento para melhorar a política.
Consulta ao Especialista
Mecanismo de solicitação das ações ótimas de um especialista humano ou sistema para estados específicos visitados pelo agente. Essas consultas são essenciais para gerar dados de treinamento de alta qualidade.
Estado Visitado
Configuração ou situação específica do ambiente que o agente alcança durante a execução de sua política atual. Esses estados se tornam pontos de interrogação para o especialista em DAgger.
Política Atual
Versão corrente da estratégia de decisão do agente que evolui a cada iteração do algoritmo DAgger. É utilizada para explorar o ambiente e identificar os estados que requerem correções de especialistas.
Agregação Adaptativa
Variante de DAgger que ajusta dinamicamente a proporção de ações de especialistas versus ações da política atual. Essa adaptação permite equilibrar exploração e explotação durante o aprendizado.
Ciclo de Feedback
Ciclo contínuo onde o desempenho da política atual gera novos estados, que por sua vez exigem correções de especialistas. Este ciclo iterativo é o mecanismo fundamental de melhoria em DAgger.
Correção Online
Processo de intervenção de especialistas que ocorre durante a execução em tempo real da política do agente. Essas correções imediatas ajudam a evitar a propagação de erros nas trajetórias.
Distribuição de Trajetórias
Conjunto de sequências de estados e ações que o agente gera seguindo sua política atual. DAgger visa alinhar essa distribuição com a produzida pela política especialista ótima.
Política Alvo
Política ótima que o agente busca imitar, geralmente representada pelas demonstrações do especialista. O objetivo de DAgger é fazer convergir a política aprendida para esta política alvo.
Agregação Progressiva
Estratégia de acumulação de dados onde cada nova iteração adiciona informações complementares aos dados existentes. Essa abordagem garante uma cobertura crescente do espaço de estados relevante.
Erro de Compacidade
Diferença de desempenho entre a política aprendida e a política especialista devido a limitações de representação. DAgger minimiza este erro coletando dados sobre a distribuição real de estados.