Глубинное обучение с подкреплением на основе модели
Model-Based Policy Optimization (MBPO)
Гибридный алгоритм, использующий краткосрочные модели для генерации синтетических данных, поддерживая при этом набор реальных данных для стабилизации обучения стратегии.
← Назад