Offline Multi-Task Reinforcement Learning
Multi-Task Batch Constrained Q-Learning
Extension du BCQ au contexte multi-tâches où la fonction Q est contrainte par les données batch tout en partageant des connaissances entre tâches.
← رجوع