Aprendizagem por Reforço Multitarefa Offline
Fatoração da Função de Valor Offline Multi-Tarefa
Decomposição da função de valor em componentes compartilhados e específicos de tarefas para melhorar o aprendizado offline multi-tarefas.
← Voltar