Aprendizagem por Reforço Multitarefa Offline
Q-Learning Multi-Tarefa com Restrição em Lote
Extensão do BCQ ao contexto multi-tarefas onde a função Q é restringida pelos dados em lote enquanto compartilha conhecimento entre tarefas.
← Voltar