Offline Multi-Task Reinforcement Learning
Multi-Task Offline Exploration-Exploitation
Dilemme adapté au contexte offline où l'équilibre entre l'utilisation de données existantes et l'extrapolation contrôlée est géré pour plusieurs tâches.
← رجوع