Обучение с помощью Dyna-Q

📖

термины

Обучение с подкреплением на основе модели

Подход обучения с подкреплением, при котором агент строит внутреннюю модель среды для моделирования переходов и генерации опыта без реального взаимодействия.

📖

термины

Dyna-Q

Гибридный алгоритм обучения с подкреплением, объединяющий прямое обучение на основе реального опыта и планирование с использованием изученной модели для генерации дополнительного моделируемого опыта.

📖

термины

Прямое обучение

Процесс обновления значений действий или политики, основанный исключительно на реальном опыте, накопленном при взаимодействии со средой.

📖

термины

Планирование в обучении с подкреплением

Использование модели среды для генерации синтетического опыта и улучшения политики без дополнительного взаимодействия с реальной средой.

📖

термины

Модель перехода

Компонент предиктивной модели среды, который оценивает распределение вероятностей следующих состояний при заданном текущем состоянии и действии.

📖

термины

Модель вознаграждения

Изученная функция, которая предсказывает ожидаемое вознаграждение для каждой пары состояние-действие в среде обучения с подкреплением.

📖

термины

Симулированный опыт

Искусственно сгенерированные выборки с помощью внутренней модели среды для ускорения обучения без необходимости дополнительного реального взаимодействия.

📖

термины

Обновление значения

Итерационный процесс корректировки оценок значений действий Q(s,a) на основе наблюдаемых вознаграждений и значений будущих состояний согласно уравнению Беллмана.

📖

термины

Память опыта

Структура данных, хранящая триплеты (состояние, действие, вознаграждение, следующее_состояние) для обеспечения повторных обновлений на этапе планирования.

📖

термины

Dyna-Q+

Расширение Dyna-Q, включающее механизм исследования, основанный на времени, прошедшем с последнего посещения состояние-действие, для обнаружения и адаптации к изменениям окружающей среды.

📖

термины

Приоритет обхода

Вариант Dyna-Q, где обновления приоритизируются в соответствии с их потенциальным воздействием на значения, оптимизируя вычислительную эффективность этапа планирования.

📖

термины

Эффект планирования

Ускорение обучения, наблюдаемое при увеличении количества шагов планирования на один реальный шаг, до точки убывающей отдачи.

📖

термины

Сходимость алгоритма

Свойство, гарантирующее, что оценки значений Dyna-Q сходятся к оптимальным значениям при определенных условиях точной модели и бесконечного посещения.

📖

термины

Ошибка модели

Расхождение между реальным поведением окружающей среды и прогнозами изученной модели, которое может ухудшить производительность, если не контролировать.

📖

термины

Вычислительная сложность

Вычислительные затраты Dyna-Q, линейно зависящие от размера памяти опыта и количества обновлений планирования на итерацию.

📖

термины

Обобщение модели

Способность экстраполировать прогнозы модели на неизученные состояния-действия, часто реализуемая с помощью нейронных сетей или других аппроксиматоров функций.

📖

термины

Выборка из пространства состояний

Стратегия выбора имитированных опытов из памяти во время фазы планирования, влияющая на эффективность обучения Dyna-Q.

📖

термины

Функция планирования

Алгоритмический компонент, выполняющий повторяющиеся обновления на сохранённых опытах для уточнения оценок ценности без нового взаимодействия со средой.

📖

термины

Адаптивная скорость обучения

Механизм динамической настройки скорости обучения в Dyna-Q для оптимизации сходимости с учётом вариации реальных и симулированных опытов.

Глоссарий ИИ

Обучение с подкреплением на основе модели

Dyna-Q

Прямое обучение

Планирование в обучении с подкреплением

Модель перехода

Модель вознаграждения

Симулированный опыт

Обновление значения

Память опыта

Dyna-Q+

Приоритет обхода

Эффект планирования

Сходимость алгоритма

Ошибка модели

Вычислительная сложность

Обобщение модели

Выборка из пространства состояний

Функция планирования

Адаптивная скорость обучения

Результаты не найдены