Offline Multi-Task Reinforcement Learning
Conservative Multi-Task Policy Optimization
Méthode garantissant que les politiques multi-tâches ne dévient pas significativement du comportement observé dans le dataset batch pour éviter les distributions de sortie de support.
← Retour