Агрегация данных DAgger
DAgger (Dataset Aggregation)
Алгоритм обучения с имитацией, который итеративно собирает данные, запрашивая эксперта о состояниях, посещаемых текущей политикой. Этот подход уменьшает расхождение между распределением обучающих данных и распределением при развертывании.
← Назад