Offline Multi-Task Reinforcement Learning
Multi-Task Offline Value Function Factorization
Décomposition de la fonction de valeur en composantes partagées et spécifiques aux tâches pour améliorer l'apprentissage offline multi-tâches.
← رجوع