Агрегация данных DAgger - Глоссарий ИИ

📖

термины

DAgger (Dataset Aggregation)

Алгоритм обучения с имитацией, который итеративно собирает данные, запрашивая эксперта о состояниях, посещаемых текущей политикой. Этот подход уменьшает расхождение между распределением обучающих данных и распределением при развертывании.

📖

термины

Агрегация данных

Процесс сбора и объединения нескольких наборов данных из разных источников или итераций обучения. В DAgger это позволяет постепенно повышать устойчивость изученной политики.

📖

термины

Итеративный сбор

Методология сбора данных, выполняемая в несколько последовательных циклов, где каждый цикл использует информацию из предыдущих циклов. Этот подход позволяет непрерывно уточнять политику и исследовать новые состояния.

📖

термины

Поведенческая политика

Стратегия или распределение вероятностей над действиями, которой следует агент при сборе данных в DAgger. Она эволюционирует с течением итераций, приближаясь к оптимальной политике.

📖

термины

Распределение состояний

Вероятностное множество состояний, которые агент с большой вероятностью будет посещать во время выполнения. DAgger стремится согласовать это распределение с тем, с которым сталкивается при реальном развертывании.

📖

термины

Смещение распределения

Разница между распределением обучающих данных и тем, с которым сталкиваются при развертывании в производственной среде. DAgger уменьшает это смещение, собирая данные о состояниях, фактически посещаемых текущей политикой.

📖

термины

Коррекция ошибок

Процесс, в ходе которого эксперт предоставляет правильные действия, когда текущая политика агента совершает ошибки. Эти коррекции служат новыми обучающими данными для улучшения политики.

📖

термины

Запрос к эксперту

Механизм получения оптимальных действий от эксперта-человека или системы для конкретных состояний, посещаемых агентом. Такие запросы необходимы для генерации высококачественных обучающих данных.

📖

термины

Посещенное состояние

Конкретная конфигурация или ситуация в среде, которую агент достигает при выполнении своей текущей политики. Эти состояния становятся вопросами для эксперта в DAgger.

📖

термины

Текущая политика

Текущая версия стратегии принятия решений агента, которая развивается на каждой итерации алгоритма DAgger. Она используется для исследования среды и определения состояний, требующих экспертных исправлений.

📖

термины

Адаптивная агрегация

Вариант DAgger, который динамически настраивает соотношение экспертных действий и действий текущей политики. Эта адаптация позволяет сбалансировать исследование и использование во время обучения.

📖

термины

Петля обратной связи

Непрерывный цикл, в котором производительность текущей политики генерирует новые состояния, которые в свою очередь требуют экспертных исправлений. Эта итерационная петля является основным механизмом улучшения в DAgger.

📖

термины

Онлайн-коррекция

Процесс экспертного вмешательства, который происходит во время выполнения политики агента в реальном времени. Эти немедленные исправления позволяют избежать распространения ошибок в траекториях.

📖

термины

Распределение траекторий

Набор последовательностей состояний и действий, которые агент генерирует, следуя своей текущей политике. DAgger стремится согласовать это распределение с тем, которое создается оптимальной экспертной политикой.

📖

термины

Целевая политика

Оптимальная политика, которую агент стремится имитировать, обычно представленная демонстрациями эксперта. Цель DAgger - сделать так, чтобы изученная политика сходилась к этой целевой политике.

📖

термины

Прогрессивная агрегация

Стратегия накопления данных, где каждая новая итерация добавляет дополнительную информацию к существующим данным. Этот подход обеспечивает растущее покрытие релевантного пространства состояний.

📖

термины

Ошибка компактности

Разница в производительности между изученной политикой и экспертной политикой из-за ограничений представления. DAgger минимизирует эту ошибку, собирая данные о реальном распределении состояний.

Глоссарий ИИ

DAgger (Dataset Aggregation)

Агрегация данных

Итеративный сбор

Поведенческая политика

Распределение состояний

Смещение распределения

Коррекция ошибок

Запрос к эксперту

Посещенное состояние

Текущая политика

Адаптивная агрегация

Петля обратной связи

Онлайн-коррекция

Распределение траекторий

Целевая политика

Прогрессивная агрегация

Ошибка компактности

Результаты не найдены