Глоссарий ИИ
Полный словарь искусственного интеллекта
Обучение с подкреплением на основе модели
Подход обучения с подкреплением, при котором агент строит внутреннюю модель среды для моделирования переходов и генерации опыта без реального взаимодействия.
Dyna-Q
Гибридный алгоритм обучения с подкреплением, объединяющий прямое обучение на основе реального опыта и планирование с использованием изученной модели для генерации дополнительного моделируемого опыта.
Прямое обучение
Процесс обновления значений действий или политики, основанный исключительно на реальном опыте, накопленном при взаимодействии со средой.
Планирование в обучении с подкреплением
Использование модели среды для генерации синтетического опыта и улучшения политики без дополнительного взаимодействия с реальной средой.
Модель перехода
Компонент предиктивной модели среды, который оценивает распределение вероятностей следующих состояний при заданном текущем состоянии и действии.
Модель вознаграждения
Изученная функция, которая предсказывает ожидаемое вознаграждение для каждой пары состояние-действие в среде обучения с подкреплением.
Симулированный опыт
Искусственно сгенерированные выборки с помощью внутренней модели среды для ускорения обучения без необходимости дополнительного реального взаимодействия.
Обновление значения
Итерационный процесс корректировки оценок значений действий Q(s,a) на основе наблюдаемых вознаграждений и значений будущих состояний согласно уравнению Беллмана.
Память опыта
Структура данных, хранящая триплеты (состояние, действие, вознаграждение, следующее_состояние) для обеспечения повторных обновлений на этапе планирования.
Dyna-Q+
Расширение Dyna-Q, включающее механизм исследования, основанный на времени, прошедшем с последнего посещения состояние-действие, для обнаружения и адаптации к изменениям окружающей среды.
Приоритет обхода
Вариант Dyna-Q, где обновления приоритизируются в соответствии с их потенциальным воздействием на значения, оптимизируя вычислительную эффективность этапа планирования.
Эффект планирования
Ускорение обучения, наблюдаемое при увеличении количества шагов планирования на один реальный шаг, до точки убывающей отдачи.
Сходимость алгоритма
Свойство, гарантирующее, что оценки значений Dyna-Q сходятся к оптимальным значениям при определенных условиях точной модели и бесконечного посещения.
Ошибка модели
Расхождение между реальным поведением окружающей среды и прогнозами изученной модели, которое может ухудшить производительность, если не контролировать.
Вычислительная сложность
Вычислительные затраты Dyna-Q, линейно зависящие от размера памяти опыта и количества обновлений планирования на итерацию.
Обобщение модели
Способность экстраполировать прогнозы модели на неизученные состояния-действия, часто реализуемая с помощью нейронных сетей или других аппроксиматоров функций.
Выборка из пространства состояний
Стратегия выбора имитированных опытов из памяти во время фазы планирования, влияющая на эффективность обучения Dyna-Q.
Функция планирования
Алгоритмический компонент, выполняющий повторяющиеся обновления на сохранённых опытах для уточнения оценок ценности без нового взаимодействия со средой.
Адаптивная скорость обучения
Механизм динамической настройки скорости обучения в Dyna-Q для оптимизации сходимости с учётом вариации реальных и симулированных опытов.