Agregação de Dados DAgger

📖

termos

DAgger (Dataset Aggregation)

Algoritmo de aprendizagem por imitação que coleta iterativamente dados, consultando um especialista sobre os estados visitados pela política atual. Esta abordagem reduz o desvio entre a distribuição de treinamento e a distribuição de implantação.

📖

termos

Agregação de Dados

Processo de coleta e combinação de múltiplos conjuntos de dados provenientes de diferentes fontes ou iterações de aprendizagem. No DAgger, isso permite melhorar progressivamente a robustez da política aprendida.

📖

termos

Coleta Iterativa

Metodologia de coleta de dados realizada em vários ciclos sucessivos, cada ciclo utilizando as informações dos ciclos anteriores. Esta abordagem permite refinar continuamente a política e explorar novos estados.

📖

termos

Política Comportamental

Estratégia ou distribuição de probabilidades sobre as ações que o agente segue durante a coleta de dados no DAgger. Ela evolui ao longo das iterações para se aproximar da política ótima.

📖

termos

Distribuição de Estados

Conjunto probabilístico dos estados que o agente é propenso a visitar durante sua execução. O DAgger busca alinhar essa distribuição com a encontrada na implantação real.

📖

termos

Viés de Distribuição

Diferença entre a distribuição dos dados de treinamento e a encontrada durante a implantação em produção. O DAgger reduz esse viés coletando dados sobre os estados realmente visitados pela política atual.

📖

termos

Correção de Erro

Processo pelo qual um especialista fornece as ações corretas quando a política atual do agente comete erros. Essas correções servem como novos dados de treinamento para melhorar a política.

📖

termos

Consulta ao Especialista

Mecanismo de solicitação das ações ótimas de um especialista humano ou sistema para estados específicos visitados pelo agente. Essas consultas são essenciais para gerar dados de treinamento de alta qualidade.

📖

termos

Estado Visitado

Configuração ou situação específica do ambiente que o agente alcança durante a execução de sua política atual. Esses estados se tornam pontos de interrogação para o especialista em DAgger.

📖

termos

Política Atual

Versão corrente da estratégia de decisão do agente que evolui a cada iteração do algoritmo DAgger. É utilizada para explorar o ambiente e identificar os estados que requerem correções de especialistas.

📖

termos

Agregação Adaptativa

Variante de DAgger que ajusta dinamicamente a proporção de ações de especialistas versus ações da política atual. Essa adaptação permite equilibrar exploração e explotação durante o aprendizado.

📖

termos

Ciclo de Feedback

Ciclo contínuo onde o desempenho da política atual gera novos estados, que por sua vez exigem correções de especialistas. Este ciclo iterativo é o mecanismo fundamental de melhoria em DAgger.

📖

termos

Correção Online

Processo de intervenção de especialistas que ocorre durante a execução em tempo real da política do agente. Essas correções imediatas ajudam a evitar a propagação de erros nas trajetórias.

📖

termos

Distribuição de Trajetórias

Conjunto de sequências de estados e ações que o agente gera seguindo sua política atual. DAgger visa alinhar essa distribuição com a produzida pela política especialista ótima.

📖

termos

Política Alvo

Política ótima que o agente busca imitar, geralmente representada pelas demonstrações do especialista. O objetivo de DAgger é fazer convergir a política aprendida para esta política alvo.

📖

termos

Agregação Progressiva

Estratégia de acumulação de dados onde cada nova iteração adiciona informações complementares aos dados existentes. Essa abordagem garante uma cobertura crescente do espaço de estados relevante.

📖

termos

Erro de Compacidade

Diferença de desempenho entre a política aprendida e a política especialista devido a limitações de representação. DAgger minimiza este erro coletando dados sobre a distribuição real de estados.

Glossário IA

DAgger (Dataset Aggregation)

Agregação de Dados

Coleta Iterativa

Política Comportamental

Distribuição de Estados

Viés de Distribuição

Correção de Erro

Consulta ao Especialista

Estado Visitado

Política Atual

Agregação Adaptativa

Ciclo de Feedback

Correção Online

Distribuição de Trajetórias

Política Alvo

Agregação Progressiva

Erro de Compacidade

Nenhum resultado encontrado