Offline Multi-Task Reinforcement Learning
Shared Dataset Policy Optimization
Technique d'optimisation de politiques multiples utilisant un pool commun de données d'expérience pour améliorer l'efficacité d'apprentissage entre tâches.
← رجوع