Глубинное обучение с подкреплением на основе модели
Модель прямой динамики
Предиктивная модель, изучающая переход состояния s_{t+1} = f(s_t, a_t) для прогнозирования будущих последствий действий в среде.
← Назад