Aprendizagem por Reforço Multitarefa Offline
RL Distribucional Multi-Tarefa
Framework que modela a distribuição completa dos retornos em vez de sua expectativa para cada tarefa em um contexto offline multi-tarefas.
← Voltar