Глоссарий ИИ
Полный словарь искусственного интеллекта
Марковский процесс принятия решений (MDP)
Математическая структура для моделирования принятия решений в средах, где результаты частично случайны и находятся под контролем принимающего решения. MDP определяется состояниями, действиями, функцией перехода и функцией вознаграждения.
Частично наблюдаемый марковский процесс принятия решений (POMDP)
Обобщение MDP, в котором агент не знает точное состояние системы, а получает вероятностные наблюдения. POMDP моделирует неопределенные среды, где агент должен поддерживать веру о возможных состояниях.
Политика (Policy)
Стратегия, которая определяет действие, которое следует предпринять в каждом возможном состоянии. Оптимальная политика максимизирует ожидаемое совокупное вознаграждение на горизонте планирования.
Коэффициент дисконтирования (Discount Factor)
Параметр (обычно обозначаемый γ), который взвешивает важность будущих вознаграждений по сравнению с немедленными вознаграждениями. Значение близкое к 1 способствует долгосрочному планированию.
Модель наблюдений
В POMDP, вероятностная функция, которая описывает вероятность наблюдения определенной информации при фактическом состоянии системы. Она связывает скрытые состояния с воспринимаемыми наблюдениями.
Итерация по значению (Value Iteration)
Алгоритм решения для MDP, который итеративно обновляет функцию значения до сходимости к оптимальной функции значения. Он гарантирует нахождение оптимальной политики.
Итерация по политике (Policy Iteration)
Алгоритм, чередующийся между оценкой данной политики и улучшением этой политики. Для MDP с небольшим пространством действий он часто сходится быстрее, чем итерация по значению.
Седловая точка (Saddle Point)
Понятие в теории игр и робастной оптимизации, представляющее решение равновесия, где ни одна стратегия не может быть унилатерально улучшена. Он используется при планировании против противников.
Онлайн-планирование (Online Planning)
Подход, при котором решения вычисляются во время выполнения, а не заранее. Он подходит для динамических сред, где будущее состояние трудно предсказать с точностью.
Дерево политики (Policy Tree)
Представление политики в POMDP в виде дерева решений, где внутренние узлы - это проверки наблюдений, а листья - действия для выполнения. Оно отражает условный характер решений.
Сэмплирование траекторий (Trajectory Sampling)
Метод аппроксимации для решения POMDP путем исследования подмножества возможных траекторий, а не всего пространства. Он позволяет обрабатывать задачи большого размера.
Приблизительное динамическое программирование (ADP)
Набор методов для решения задач оптимального управления большой размерности с использованием аппроксимаций функции ценности. Оно существенно для MDP с непрерывными пространствами состояний.