🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Обучение с подкреплением на основе модели

Подход обучения с подкреплением, при котором агент строит внутреннюю модель среды для моделирования переходов и генерации опыта без реального взаимодействия.

📖
термины

Dyna-Q

Гибридный алгоритм обучения с подкреплением, объединяющий прямое обучение на основе реального опыта и планирование с использованием изученной модели для генерации дополнительного моделируемого опыта.

📖
термины

Прямое обучение

Процесс обновления значений действий или политики, основанный исключительно на реальном опыте, накопленном при взаимодействии со средой.

📖
термины

Планирование в обучении с подкреплением

Использование модели среды для генерации синтетического опыта и улучшения политики без дополнительного взаимодействия с реальной средой.

📖
термины

Модель перехода

Компонент предиктивной модели среды, который оценивает распределение вероятностей следующих состояний при заданном текущем состоянии и действии.

📖
термины

Модель вознаграждения

Изученная функция, которая предсказывает ожидаемое вознаграждение для каждой пары состояние-действие в среде обучения с подкреплением.

📖
термины

Симулированный опыт

Искусственно сгенерированные выборки с помощью внутренней модели среды для ускорения обучения без необходимости дополнительного реального взаимодействия.

📖
термины

Обновление значения

Итерационный процесс корректировки оценок значений действий Q(s,a) на основе наблюдаемых вознаграждений и значений будущих состояний согласно уравнению Беллмана.

📖
термины

Память опыта

Структура данных, хранящая триплеты (состояние, действие, вознаграждение, следующее_состояние) для обеспечения повторных обновлений на этапе планирования.

📖
термины

Dyna-Q+

Расширение Dyna-Q, включающее механизм исследования, основанный на времени, прошедшем с последнего посещения состояние-действие, для обнаружения и адаптации к изменениям окружающей среды.

📖
термины

Приоритет обхода

Вариант Dyna-Q, где обновления приоритизируются в соответствии с их потенциальным воздействием на значения, оптимизируя вычислительную эффективность этапа планирования.

📖
термины

Эффект планирования

Ускорение обучения, наблюдаемое при увеличении количества шагов планирования на один реальный шаг, до точки убывающей отдачи.

📖
термины

Сходимость алгоритма

Свойство, гарантирующее, что оценки значений Dyna-Q сходятся к оптимальным значениям при определенных условиях точной модели и бесконечного посещения.

📖
термины

Ошибка модели

Расхождение между реальным поведением окружающей среды и прогнозами изученной модели, которое может ухудшить производительность, если не контролировать.

📖
термины

Вычислительная сложность

Вычислительные затраты Dyna-Q, линейно зависящие от размера памяти опыта и количества обновлений планирования на итерацию.

📖
термины

Обобщение модели

Способность экстраполировать прогнозы модели на неизученные состояния-действия, часто реализуемая с помощью нейронных сетей или других аппроксиматоров функций.

📖
термины

Выборка из пространства состояний

Стратегия выбора имитированных опытов из памяти во время фазы планирования, влияющая на эффективность обучения Dyna-Q.

📖
термины

Функция планирования

Алгоритмический компонент, выполняющий повторяющиеся обновления на сохранённых опытах для уточнения оценок ценности без нового взаимодействия со средой.

📖
термины

Адаптивная скорость обучения

Механизм динамической настройки скорости обучения в Dyna-Q для оптимизации сходимости с учётом вариации реальных и симулированных опытов.

🔍

Результаты не найдены