Batch Constrained Q-learning (BCQ) - Глоссарий ИИ

📖

термины

Пакетное Ограниченное Q-обучение (BCQ)

Алгоритм офлайн-обучения с подкреплением, который ограничивает политики близкими к действиям, наблюдаемым в обучающем наборе данных, чтобы избежать ошибок экстраполяции. BCQ использует модель генератора действий для создания действий, похожих на пакетные, с исследованием небольших вариаций.

📖

термины

Сдвиг Распределения

Феномен, когда распределение состояний-действий, посещаемых изученной политикой, значительно отличается от распределения офлайн набора данных. Этот сдвиг может привести к смещенным оценкам ценности и ухудшенной производительности при развертывании.

📖

термины

Офлайн Обучение с Подкреплением

Парадигма обучения, где агент учится исключительно из фиксированного набора данных, собранного заранее, без взаимодействия с окружающей средой. Этот подход необходим, когда исследование в реальном времени дорого или опасно.

📖

термины

Клонирование Поведения

Техника контролируемого обучения, которая непосредственно имитирует действия эксперта из демонстрационных данных без использования сигналов вознаграждения. Хотя проста, этот подход может страдать от накопления каскадных ошибок при развертывании.

📖

термины

Неявное Q-обучение

Метод, который изучает Q-функцию неявно, избегая прямой оценки действий вне распределения. IQL формулирует обучение как проблему обучения по экспектилям для лучшего управления неопределенностью в офлайн данных.

📖

термины

Действия Вне Распределения

Действия, генерируемые изученной политикой, которые не наблюдались или редко наблюдались в обучающем наборе данных. Эти действия представляют основной риск в офлайн RL, так как их ценности не могут быть надежно оценены.

📖

термины

Ограничение Политики

Механизм, ограничивающий изученную политику генерацией действий, похожих на присутствующие в пакете офлайн данных. Это ограничение может быть реализовано через штрафы, расхождения или условные генеративные модели.

📖

термины

Модель Возмущений

Компонент BCQ, который генерирует вариации вокруг действий поведения для локального исследования пространства действий. Эта модель добавляет контролируемый шум к наблюдаемым действиям, гарантируя их выполнимость.

📖

термины

Оценка функции ценности

Процесс оценки Q-значений из офлайн данных с учетом потенциального смещения из-за отсутствия исследования. Современные методы используют методы консервативного недооценивания для избежания сверхоптимизации.

📖

термины

Пакетное обучение с подкреплением

Фреймворк обучения с подкреплением, где агент имеет фиксированный пакет переходов и должен изучать оптимальную политику без дополнительных взаимодействий. Этот контекст накладывает специфические ограничения на алгоритмы для избежания расходимости.

📖

термины

Ограничение безопасности

Ограничение, накладываемое на офлайн политики для гарантии того, что генерируемые действия остаются в безопасных регионах пространства состояний-действий. Эти ограничения критически важны в таких приложениях как робототехника или медицина.

📖

термины

Повторение действий

Стратегия, используемая в офлайн обучении с подкреплением для улучшения стабильности путем повторения действий, похожих на наблюдаемые в данных. Эта техника снижает риск генерации полностью новых и потенциально опасных действий.

📖

термины

Оценка неопределенности

Количественная оценка неопределенности, связанной с оценками ценности действий, не наблюдаемых в пакете. Точная оценка неопределенности позволяет штрафовать действия вне распределения и улучшать робастность.

📖

термины

Обучение с подкреплением на основе модели

Подход, который изучает модель динамики окружения из офлайн данных для генерации синтетических опытов. В офлайн контексте эта модель должна использоваться с осторожностью для избежания распространения ошибок.

📖

термины

Оценка политики

Фаза оценки производительности политики с использованием только офлайн данных без взаимодействия с окружением. Этот этап критически важен для валидации обучения перед развертыванием.

📖

термины

Улучшение политики

Процесс итеративного улучшения политики с использованием оценок ценности, вычисленных из пакета офлайн данных. Улучшение должно соблюдать ограничения распределения для сохранения валидности.

📖

термины

Ошибка начальной загрузки

Накопленная ошибка, когда политика использует собственные оценки стоимости для самосовершенствования, приводящая к расхождению за пределы поддержки данных. Офлайн-методы используют специальные техники для контроля этого смещения.

Глоссарий ИИ

Пакетное Ограниченное Q-обучение (BCQ)

Сдвиг Распределения

Офлайн Обучение с Подкреплением

Клонирование Поведения

Неявное Q-обучение

Действия Вне Распределения

Ограничение Политики

Модель Возмущений

Оценка функции ценности

Пакетное обучение с подкреплением

Ограничение безопасности

Повторение действий

Оценка неопределенности

Обучение с подкреплением на основе модели

Оценка политики

Улучшение политики

Ошибка начальной загрузки

Результаты не найдены