🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Марковский процесс принятия решений (MDP)

Математическая структура для моделирования принятия решений в средах, где результаты частично случайны и находятся под контролем принимающего решения. MDP определяется состояниями, действиями, функцией перехода и функцией вознаграждения.

📖
термины

Частично наблюдаемый марковский процесс принятия решений (POMDP)

Обобщение MDP, в котором агент не знает точное состояние системы, а получает вероятностные наблюдения. POMDP моделирует неопределенные среды, где агент должен поддерживать веру о возможных состояниях.

📖
термины

Политика (Policy)

Стратегия, которая определяет действие, которое следует предпринять в каждом возможном состоянии. Оптимальная политика максимизирует ожидаемое совокупное вознаграждение на горизонте планирования.

📖
термины

Коэффициент дисконтирования (Discount Factor)

Параметр (обычно обозначаемый γ), который взвешивает важность будущих вознаграждений по сравнению с немедленными вознаграждениями. Значение близкое к 1 способствует долгосрочному планированию.

📖
термины

Модель наблюдений

В POMDP, вероятностная функция, которая описывает вероятность наблюдения определенной информации при фактическом состоянии системы. Она связывает скрытые состояния с воспринимаемыми наблюдениями.

📖
термины

Итерация по значению (Value Iteration)

Алгоритм решения для MDP, который итеративно обновляет функцию значения до сходимости к оптимальной функции значения. Он гарантирует нахождение оптимальной политики.

📖
термины

Итерация по политике (Policy Iteration)

Алгоритм, чередующийся между оценкой данной политики и улучшением этой политики. Для MDP с небольшим пространством действий он часто сходится быстрее, чем итерация по значению.

📖
термины

Седловая точка (Saddle Point)

Понятие в теории игр и робастной оптимизации, представляющее решение равновесия, где ни одна стратегия не может быть унилатерально улучшена. Он используется при планировании против противников.

📖
термины

Онлайн-планирование (Online Planning)

Подход, при котором решения вычисляются во время выполнения, а не заранее. Он подходит для динамических сред, где будущее состояние трудно предсказать с точностью.

📖
термины

Дерево политики (Policy Tree)

Представление политики в POMDP в виде дерева решений, где внутренние узлы - это проверки наблюдений, а листья - действия для выполнения. Оно отражает условный характер решений.

📖
термины

Сэмплирование траекторий (Trajectory Sampling)

Метод аппроксимации для решения POMDP путем исследования подмножества возможных траекторий, а не всего пространства. Он позволяет обрабатывать задачи большого размера.

📖
термины

Приблизительное динамическое программирование (ADP)

Набор методов для решения задач оптимального управления большой размерности с использованием аппроксимаций функции ценности. Оно существенно для MDP с непрерывными пространствами состояний.

🔍

Результаты не найдены