Глоссарий ИИ
Полный словарь искусственного интеллекта
DAgger (Dataset Aggregation)
Алгоритм обучения с имитацией, который итеративно собирает данные, запрашивая эксперта о состояниях, посещаемых текущей политикой. Этот подход уменьшает расхождение между распределением обучающих данных и распределением при развертывании.
Агрегация данных
Процесс сбора и объединения нескольких наборов данных из разных источников или итераций обучения. В DAgger это позволяет постепенно повышать устойчивость изученной политики.
Итеративный сбор
Методология сбора данных, выполняемая в несколько последовательных циклов, где каждый цикл использует информацию из предыдущих циклов. Этот подход позволяет непрерывно уточнять политику и исследовать новые состояния.
Поведенческая политика
Стратегия или распределение вероятностей над действиями, которой следует агент при сборе данных в DAgger. Она эволюционирует с течением итераций, приближаясь к оптимальной политике.
Распределение состояний
Вероятностное множество состояний, которые агент с большой вероятностью будет посещать во время выполнения. DAgger стремится согласовать это распределение с тем, с которым сталкивается при реальном развертывании.
Смещение распределения
Разница между распределением обучающих данных и тем, с которым сталкиваются при развертывании в производственной среде. DAgger уменьшает это смещение, собирая данные о состояниях, фактически посещаемых текущей политикой.
Коррекция ошибок
Процесс, в ходе которого эксперт предоставляет правильные действия, когда текущая политика агента совершает ошибки. Эти коррекции служат новыми обучающими данными для улучшения политики.
Запрос к эксперту
Механизм получения оптимальных действий от эксперта-человека или системы для конкретных состояний, посещаемых агентом. Такие запросы необходимы для генерации высококачественных обучающих данных.
Посещенное состояние
Конкретная конфигурация или ситуация в среде, которую агент достигает при выполнении своей текущей политики. Эти состояния становятся вопросами для эксперта в DAgger.
Текущая политика
Текущая версия стратегии принятия решений агента, которая развивается на каждой итерации алгоритма DAgger. Она используется для исследования среды и определения состояний, требующих экспертных исправлений.
Адаптивная агрегация
Вариант DAgger, который динамически настраивает соотношение экспертных действий и действий текущей политики. Эта адаптация позволяет сбалансировать исследование и использование во время обучения.
Петля обратной связи
Непрерывный цикл, в котором производительность текущей политики генерирует новые состояния, которые в свою очередь требуют экспертных исправлений. Эта итерационная петля является основным механизмом улучшения в DAgger.
Онлайн-коррекция
Процесс экспертного вмешательства, который происходит во время выполнения политики агента в реальном времени. Эти немедленные исправления позволяют избежать распространения ошибок в траекториях.
Распределение траекторий
Набор последовательностей состояний и действий, которые агент генерирует, следуя своей текущей политике. DAgger стремится согласовать это распределение с тем, которое создается оптимальной экспертной политикой.
Целевая политика
Оптимальная политика, которую агент стремится имитировать, обычно представленная демонстрациями эксперта. Цель DAgger - сделать так, чтобы изученная политика сходилась к этой целевой политике.
Прогрессивная агрегация
Стратегия накопления данных, где каждая новая итерация добавляет дополнительную информацию к существующим данным. Этот подход обеспечивает растущее покрытие релевантного пространства состояний.
Ошибка компактности
Разница в производительности между изученной политикой и экспертной политикой из-за ограничений представления. DAgger минимизирует эту ошибку, собирая данные о реальном распределении состояний.