মডেল-ভিত্তিক গভীর RL
Model-Based Policy Optimization (MBPO)
Algorithme hybride utilisant des modèles à courte portée pour générer des données synthétiques tout en maintenant un ensemble de données réelles pour stabiliser l'apprentissage de la politique.
← ফিরে যান