Aprendizagem por Reforço Multitarefa Offline

📖

termos

Aprendizagem por Reforço Multi-Tarefa Offline

Paradigma de aprendizagem onde múltiplas políticas para diferentes tarefas são aprendidas simultaneamente a partir de conjuntos de dados fixos em lote sem interação com o ambiente.

📖

termos

Aprendizagem Multi-Tarefa em Lote

Abordagem onde o agente aprende a resolver múltiplas tarefas usando apenas dados pré-coletados, sem exploração online durante o treinamento.

📖

termos

Otimização de Política de Conjunto de Dados Compartilhado

Técnica de otimização de múltiplas políticas utilizando um pool comum de dados de experiência para melhorar a eficiência de aprendizagem entre tarefas.

📖

termos

Aprendizagem de Representação Agnostic à Tarefa

Processo de aprendizagem de representações de estado-ação generalizáveis a partir de dados em lote sem conhecimento específico de tarefas futuras.

📖

termos

Otimização de Política Multi-Tarefa Conservadora

Método que garante que as políticas multi-tarefas não se desviem significativamente do comportamento observado no conjunto de dados em lote para evitar distribuições de saída fora do suporte.

📖

termos

Q-Learning Multi-Tarefa com Restrição em Lote

Extensão do BCQ ao contexto multi-tarefas onde a função Q é restringida pelos dados em lote enquanto compartilha conhecimento entre tarefas.

📖

termos

RL Distribucional Multi-Tarefa

Framework que modela a distribuição completa dos retornos em vez de sua expectativa para cada tarefa em um contexto offline multi-tarefas.

📖

termos

Meta-Aprendizagem Multi-Tarefa Offline

Aprendizagem de meta-conhecimento a partir de conjuntos de dados em lote multi-tarefas para permitir uma adaptação rápida a novas tarefas com poucos dados.

📖

termos

Desacoplamento de Tarefas

Técnica que separa as representações específicas de tarefas do conhecimento compartilhado para otimizar o aprendizado offline multi-tarefas.

📖

termos

Métricas de Avaliação Offline Multi-Tarefa

Medidas específicas que avaliam o desempenho de políticas multi-tarefas sem interação, como o FQE multi-tarefas ou a amostragem por importância ponderada.

📖

termos

Cabeças de Política Específicas de Tarefa

Arquitetura de rede com tronco comum compartilhado e cabeças de saída distintas para cada tarefa no aprendizado offline multi-tarefas.

📖

termos

Eficiência de Dados Offline Multi-Tarefa

Medida da eficiência com que os dados em lote são usados para aprender múltiplas políticas em comparação com o aprendizado de tarefa única.

📖

termos

Transferência de Conhecimento Entre Tarefas

Processo de transferência automática de conhecimento útil entre diferentes tarefas durante o aprendizado a partir de conjuntos de dados em lote compartilhados.

📖

termos

Fatoração da Função de Valor Offline Multi-Tarefa

Decomposição da função de valor em componentes compartilhados e específicos de tarefas para melhorar o aprendizado offline multi-tarefas.

📖

termos

Agrupamento de Tarefas em Cenários Offline

Agrupamento automático de tarefas semelhantes com base em seus dados em lote para otimizar o compartilhamento de conhecimento e a alocação de recursos.

📖

termos

Exploração-Explotação Offline Multi-Tarefa

Dilema adaptado ao contexto offline onde o equilíbrio entre o uso de dados existentes e a extrapolação controlada é gerenciado para múltiplas tarefas.

📖

termos

Modelo de Dinâmica Compartilhada

Modelo de transição único aprendido a partir de dados em lote multi-tarefa, capturando as dinâmicas comuns e específicas dos ambientes.

📖

termos

Aprendizagem Curricular Offline Multi-Tarefa

Sequenciamento automático de tarefas durante o treinamento offline, baseado em sua dificuldade e interdependência para otimizar a aprendizagem.

Glossário IA