Глоссарий ИИ
Полный словарь искусственного интеллекта
Офлайн-обучение имитации
Парадигма обучения, в которой агент учится имитировать экспертное поведение без взаимодействия со средой, используя только фиксированный набор предварительно записанных демонстраций.
Набор демонстраций
Статическая коллекция траекторий или примеров экспертных действий, используемых как единственный источник информации для офлайн-обучения имитации.
Офлайн-обучение с подкреплением
Подход обучения с подкреплением, который использует только предварительно существующий набор данных без взаимодействия в реальном времени со средой.
Важностная выборка
Статистическая техника, используемая для коррекции расхождения между распределением данных и целевой политикой путем взвешивания выборок в соответствии с их относительной вероятностью.
Сохранение распределения
Ограничение, налагаемое на изучаемую политику для сохранения близости к распределению демонстраций, избегая рискованных экстраполяций в неизвестных областях.
Офлайн-траектория
Полная последовательность состояний, действий и вознаграждений, записанная из экспертной политики, являющаяся базовой единицей обучающих данных.
Экспертная политика
Эталонная стратегия, сгенерировавшая демонстрации, служащая моделью для имитации и определяющая желаемое оптимальное поведение.
Офлайн-оценщик
Алгоритм оценки значения или политики, специально разработанный для работы со статическими данными без необходимости взаимодействия со средой.
Консервативная коррекция смещения
Подход к коррекции смещения, который отдаёт приоритет безопасности, штрафуя за действия, недостаточно представленные в демонстрационных данных.
Имитационное обучение с ограничениями
Метод, интегрирующий явные ограничения на расхождение между изучаемой политикой и распределением данных для обеспечения стабильности.
Набор переходов
Структура данных, хранящая кортежи (состояние, действие, следующее состояние, вознаграждение), извлечённые из экспертных траекторий для офлайн-обучения.
Адаптивное взвешивание по значимости
Технология динамического взвешивания, которая корректирует веса значимости в зависимости от уверенности в качестве данных в различных областях пространства состояний.
Ошибка покрытия
Мера, количественно оценивающая несоответствие между носителем распределения данных и носителем оптимальной политики в офлайн-обучении.