Офлайн обучение имитации

📖

термины

Офлайн-обучение имитации

Парадигма обучения, в которой агент учится имитировать экспертное поведение без взаимодействия со средой, используя только фиксированный набор предварительно записанных демонстраций.

📖

термины

Набор демонстраций

Статическая коллекция траекторий или примеров экспертных действий, используемых как единственный источник информации для офлайн-обучения имитации.

📖

термины

Офлайн-обучение с подкреплением

Подход обучения с подкреплением, который использует только предварительно существующий набор данных без взаимодействия в реальном времени со средой.

📖

термины

Важностная выборка

Статистическая техника, используемая для коррекции расхождения между распределением данных и целевой политикой путем взвешивания выборок в соответствии с их относительной вероятностью.

📖

термины

Сохранение распределения

Ограничение, налагаемое на изучаемую политику для сохранения близости к распределению демонстраций, избегая рискованных экстраполяций в неизвестных областях.

📖

термины

Офлайн-траектория

Полная последовательность состояний, действий и вознаграждений, записанная из экспертной политики, являющаяся базовой единицей обучающих данных.

📖

термины

Экспертная политика

Эталонная стратегия, сгенерировавшая демонстрации, служащая моделью для имитации и определяющая желаемое оптимальное поведение.

📖

термины

Офлайн-оценщик

Алгоритм оценки значения или политики, специально разработанный для работы со статическими данными без необходимости взаимодействия со средой.

📖

термины

Консервативная коррекция смещения

Подход к коррекции смещения, который отдаёт приоритет безопасности, штрафуя за действия, недостаточно представленные в демонстрационных данных.

📖

термины

Имитационное обучение с ограничениями

Метод, интегрирующий явные ограничения на расхождение между изучаемой политикой и распределением данных для обеспечения стабильности.

📖

термины

Набор переходов

Структура данных, хранящая кортежи (состояние, действие, следующее состояние, вознаграждение), извлечённые из экспертных траекторий для офлайн-обучения.

📖

термины

Адаптивное взвешивание по значимости

Технология динамического взвешивания, которая корректирует веса значимости в зависимости от уверенности в качестве данных в различных областях пространства состояний.

📖

термины

Ошибка покрытия

Мера, количественно оценивающая несоответствие между носителем распределения данных и носителем оптимальной политики в офлайн-обучении.

Глоссарий ИИ