Планирование в условиях стохастической неопределенности

📖

термины

Марковский процесс принятия решений (MDP)

Математическая структура для моделирования принятия решений в средах, где результаты частично случайны и находятся под контролем принимающего решения. MDP определяется состояниями, действиями, функцией перехода и функцией вознаграждения.

📖

термины

Частично наблюдаемый марковский процесс принятия решений (POMDP)

Обобщение MDP, в котором агент не знает точное состояние системы, а получает вероятностные наблюдения. POMDP моделирует неопределенные среды, где агент должен поддерживать веру о возможных состояниях.

📖

термины

Политика (Policy)

Стратегия, которая определяет действие, которое следует предпринять в каждом возможном состоянии. Оптимальная политика максимизирует ожидаемое совокупное вознаграждение на горизонте планирования.

📖

термины

Коэффициент дисконтирования (Discount Factor)

Параметр (обычно обозначаемый γ), который взвешивает важность будущих вознаграждений по сравнению с немедленными вознаграждениями. Значение близкое к 1 способствует долгосрочному планированию.

📖

термины

Модель наблюдений

В POMDP, вероятностная функция, которая описывает вероятность наблюдения определенной информации при фактическом состоянии системы. Она связывает скрытые состояния с воспринимаемыми наблюдениями.

📖

термины

Итерация по значению (Value Iteration)

Алгоритм решения для MDP, который итеративно обновляет функцию значения до сходимости к оптимальной функции значения. Он гарантирует нахождение оптимальной политики.

📖

термины

Итерация по политике (Policy Iteration)

Алгоритм, чередующийся между оценкой данной политики и улучшением этой политики. Для MDP с небольшим пространством действий он часто сходится быстрее, чем итерация по значению.

📖

термины

Седловая точка (Saddle Point)

Понятие в теории игр и робастной оптимизации, представляющее решение равновесия, где ни одна стратегия не может быть унилатерально улучшена. Он используется при планировании против противников.

📖

термины

Онлайн-планирование (Online Planning)

Подход, при котором решения вычисляются во время выполнения, а не заранее. Он подходит для динамических сред, где будущее состояние трудно предсказать с точностью.

📖

термины

Дерево политики (Policy Tree)

Представление политики в POMDP в виде дерева решений, где внутренние узлы - это проверки наблюдений, а листья - действия для выполнения. Оно отражает условный характер решений.

📖

термины

Сэмплирование траекторий (Trajectory Sampling)

Метод аппроксимации для решения POMDP путем исследования подмножества возможных траекторий, а не всего пространства. Он позволяет обрабатывать задачи большого размера.

📖

термины

Приблизительное динамическое программирование (ADP)

Набор методов для решения задач оптимального управления большой размерности с использованием аппроксимаций функции ценности. Оно существенно для MDP с непрерывными пространствами состояний.

Глоссарий ИИ

Марковский процесс принятия решений (MDP)

Частично наблюдаемый марковский процесс принятия решений (POMDP)

Политика (Policy)

Коэффициент дисконтирования (Discount Factor)

Модель наблюдений

Итерация по значению (Value Iteration)

Итерация по политике (Policy Iteration)

Седловая точка (Saddle Point)

Онлайн-планирование (Online Planning)

Дерево политики (Policy Tree)

Сэмплирование траекторий (Trajectory Sampling)

Приблизительное динамическое программирование (ADP)

Результаты не найдены