Aprendizagem por Reforço Multitarefa Offline
Otimização de Política de Conjunto de Dados Compartilhado
Técnica de otimização de múltiplas políticas utilizando um pool comum de dados de experiência para melhorar a eficiência de aprendizagem entre tarefas.
← Voltar