Глоссарий ИИ
Полный словарь искусственного интеллекта
Пакетное Ограниченное Q-обучение (BCQ)
Алгоритм офлайн-обучения с подкреплением, который ограничивает политики близкими к действиям, наблюдаемым в обучающем наборе данных, чтобы избежать ошибок экстраполяции. BCQ использует модель генератора действий для создания действий, похожих на пакетные, с исследованием небольших вариаций.
Сдвиг Распределения
Феномен, когда распределение состояний-действий, посещаемых изученной политикой, значительно отличается от распределения офлайн набора данных. Этот сдвиг может привести к смещенным оценкам ценности и ухудшенной производительности при развертывании.
Офлайн Обучение с Подкреплением
Парадигма обучения, где агент учится исключительно из фиксированного набора данных, собранного заранее, без взаимодействия с окружающей средой. Этот подход необходим, когда исследование в реальном времени дорого или опасно.
Клонирование Поведения
Техника контролируемого обучения, которая непосредственно имитирует действия эксперта из демонстрационных данных без использования сигналов вознаграждения. Хотя проста, этот подход может страдать от накопления каскадных ошибок при развертывании.
Неявное Q-обучение
Метод, который изучает Q-функцию неявно, избегая прямой оценки действий вне распределения. IQL формулирует обучение как проблему обучения по экспектилям для лучшего управления неопределенностью в офлайн данных.
Действия Вне Распределения
Действия, генерируемые изученной политикой, которые не наблюдались или редко наблюдались в обучающем наборе данных. Эти действия представляют основной риск в офлайн RL, так как их ценности не могут быть надежно оценены.
Ограничение Политики
Механизм, ограничивающий изученную политику генерацией действий, похожих на присутствующие в пакете офлайн данных. Это ограничение может быть реализовано через штрафы, расхождения или условные генеративные модели.
Модель Возмущений
Компонент BCQ, который генерирует вариации вокруг действий поведения для локального исследования пространства действий. Эта модель добавляет контролируемый шум к наблюдаемым действиям, гарантируя их выполнимость.
Оценка функции ценности
Процесс оценки Q-значений из офлайн данных с учетом потенциального смещения из-за отсутствия исследования. Современные методы используют методы консервативного недооценивания для избежания сверхоптимизации.
Пакетное обучение с подкреплением
Фреймворк обучения с подкреплением, где агент имеет фиксированный пакет переходов и должен изучать оптимальную политику без дополнительных взаимодействий. Этот контекст накладывает специфические ограничения на алгоритмы для избежания расходимости.
Ограничение безопасности
Ограничение, накладываемое на офлайн политики для гарантии того, что генерируемые действия остаются в безопасных регионах пространства состояний-действий. Эти ограничения критически важны в таких приложениях как робототехника или медицина.
Повторение действий
Стратегия, используемая в офлайн обучении с подкреплением для улучшения стабильности путем повторения действий, похожих на наблюдаемые в данных. Эта техника снижает риск генерации полностью новых и потенциально опасных действий.
Оценка неопределенности
Количественная оценка неопределенности, связанной с оценками ценности действий, не наблюдаемых в пакете. Точная оценка неопределенности позволяет штрафовать действия вне распределения и улучшать робастность.
Обучение с подкреплением на основе модели
Подход, который изучает модель динамики окружения из офлайн данных для генерации синтетических опытов. В офлайн контексте эта модель должна использоваться с осторожностью для избежания распространения ошибок.
Оценка политики
Фаза оценки производительности политики с использованием только офлайн данных без взаимодействия с окружением. Этот этап критически важен для валидации обучения перед развертыванием.
Улучшение политики
Процесс итеративного улучшения политики с использованием оценок ценности, вычисленных из пакета офлайн данных. Улучшение должно соблюдать ограничения распределения для сохранения валидности.
Ошибка начальной загрузки
Накопленная ошибка, когда политика использует собственные оценки стоимости для самосовершенствования, приводящая к расхождению за пределы поддержки данных. Офлайн-методы используют специальные техники для контроля этого смещения.