Offline Multi-Task Reinforcement Learning
Task-Specific Policy Heads
Architecture réseau avec tronc commun partagé et têtes de sortie distinctes pour chaque tâche dans l'apprentissage offline multi-tâches.
← رجوع