Глубинное обучение с подкреплением на основе модели
Trajectory Optimization
Прямая оптимизация последовательностей состояний-действий с использованием градиента модели для поиска оптимальных траекторий, особенно эффективная для непрерывных систем.
← Назад