Glossário IA
O dicionário completo da Inteligência Artificial
Aprendizagem por Reforço Multi-Tarefa Offline
Paradigma de aprendizagem onde múltiplas políticas para diferentes tarefas são aprendidas simultaneamente a partir de conjuntos de dados fixos em lote sem interação com o ambiente.
Aprendizagem Multi-Tarefa em Lote
Abordagem onde o agente aprende a resolver múltiplas tarefas usando apenas dados pré-coletados, sem exploração online durante o treinamento.
Otimização de Política de Conjunto de Dados Compartilhado
Técnica de otimização de múltiplas políticas utilizando um pool comum de dados de experiência para melhorar a eficiência de aprendizagem entre tarefas.
Aprendizagem de Representação Agnostic à Tarefa
Processo de aprendizagem de representações de estado-ação generalizáveis a partir de dados em lote sem conhecimento específico de tarefas futuras.
Otimização de Política Multi-Tarefa Conservadora
Método que garante que as políticas multi-tarefas não se desviem significativamente do comportamento observado no conjunto de dados em lote para evitar distribuições de saída fora do suporte.
Q-Learning Multi-Tarefa com Restrição em Lote
Extensão do BCQ ao contexto multi-tarefas onde a função Q é restringida pelos dados em lote enquanto compartilha conhecimento entre tarefas.
RL Distribucional Multi-Tarefa
Framework que modela a distribuição completa dos retornos em vez de sua expectativa para cada tarefa em um contexto offline multi-tarefas.
Meta-Aprendizagem Multi-Tarefa Offline
Aprendizagem de meta-conhecimento a partir de conjuntos de dados em lote multi-tarefas para permitir uma adaptação rápida a novas tarefas com poucos dados.
Desacoplamento de Tarefas
Técnica que separa as representações específicas de tarefas do conhecimento compartilhado para otimizar o aprendizado offline multi-tarefas.
Métricas de Avaliação Offline Multi-Tarefa
Medidas específicas que avaliam o desempenho de políticas multi-tarefas sem interação, como o FQE multi-tarefas ou a amostragem por importância ponderada.
Cabeças de Política Específicas de Tarefa
Arquitetura de rede com tronco comum compartilhado e cabeças de saída distintas para cada tarefa no aprendizado offline multi-tarefas.
Eficiência de Dados Offline Multi-Tarefa
Medida da eficiência com que os dados em lote são usados para aprender múltiplas políticas em comparação com o aprendizado de tarefa única.
Transferência de Conhecimento Entre Tarefas
Processo de transferência automática de conhecimento útil entre diferentes tarefas durante o aprendizado a partir de conjuntos de dados em lote compartilhados.
Fatoração da Função de Valor Offline Multi-Tarefa
Decomposição da função de valor em componentes compartilhados e específicos de tarefas para melhorar o aprendizado offline multi-tarefas.
Agrupamento de Tarefas em Cenários Offline
Agrupamento automático de tarefas semelhantes com base em seus dados em lote para otimizar o compartilhamento de conhecimento e a alocação de recursos.
Exploração-Explotação Offline Multi-Tarefa
Dilema adaptado ao contexto offline onde o equilíbrio entre o uso de dados existentes e a extrapolação controlada é gerenciado para múltiplas tarefas.
Modelo de Dinâmica Compartilhada
Modelo de transição único aprendido a partir de dados em lote multi-tarefa, capturando as dinâmicas comuns e específicas dos ambientes.
Aprendizagem Curricular Offline Multi-Tarefa
Sequenciamento automático de tarefas durante o treinamento offline, baseado em sua dificuldade e interdependência para otimizar a aprendizagem.