Обучение через дифференциацию моделей
Дифференцируемое обучение с подкреплением на основе модели
Подход обучения с подкреплением, где градиенты обратного распространения ошибки проходят через дифференцируемую модель среды для прямой оптимизации стратегий.
← Назад