POMDP (Частично наблюдаемый марковский процесс принятия решений)

📖

термины

Состояние убеждения (Belief State)

Вероятностное распределение на множестве возможных состояний, представляющее оценку агентом текущего состояния системы с учетом истории наблюдений и действий.

📖

термины

Функция наблюдения

Вероятностная модель, определяющая вероятность наблюдения определенной информации при заданном реальном состоянии системы и действии, предпринятом агентом.

📖

термины

Пространство наблюдений

Множество всех возможных наблюдений, которые агент может получить от среды, которые могут быть менее информативными, чем реальное состояние.

📖

термины

Обновление убеждения

Процесс, часто основанный на фильтре Байеса, с помощью которого агент обновляет свое распределение убеждений после выполнения действия и получения нового наблюдения.

📖

термины

Политика убеждения

Стратегия, которая отображает каждое возможное состояние убеждения в действие для выполнения, оптимизируя ожидание кумулятивных вознаграждений в долгосрочной перспективе.

📖

термины

Горизонт

Количество шагов, на которые агент планирует, может быть конечным (эпизод) или бесконечным, влияя на то, как будущие вознаграждения дисконтируются.

📖

термины

Дерево планирования

Древовидная структура данных, исследующая возможные последовательности действий и наблюдений для оценки и выбора наилучшей политики в POMDP.

📖

термины

Поточечная итерация по значениям для POMDP (POMDP-PI)

Алгоритм итерации по значениям, который вычисляет оптимальные функции значений для POMDP, представляя функцию значения как набор альфа-векторов.

📖

термины

Альфа-векторы (Alpha Vectors)

Гиперплоскости, составляющие функцию ценности в POMDP, где каждый вектор связан с действием и определяет область пространства убеждений, где это действие является оптимальным.

📖

термины

Q-MDP

Метод аппроксимации для решения POMDP, который предполагает, что ценность действия в состоянии убеждения равна Q-значению действия в наиболее вероятном состоянии этого убеждения.

📖

термины

Факторизованный POMDP (Factored POMDP)

Представление POMDP, в котором пространство состояний и наблюдений структурировано с использованием случайных переменных, что позволяет моделировать зависимости и снижать сложность.

📖

термины

Акроним для Decentralized Partially Observable Markov Decision Process (Децентрализованный частично наблюдаемый марковский процесс принятия решений) - расширение POMDP для нескольких агентов, принимающих решения децентрализованно без прямой коммуникации.

📖

термины

Обратное распространение ценности (Value Backup)

Фундаментальная операция в алгоритмах POMDP, которая обновляет ценность узла убеждения, учитывая значения дочерних узлов, возникающих в результате возможных действий и наблюдений.

Глоссарий ИИ

Состояние убеждения (Belief State)

Функция наблюдения

Пространство наблюдений

Обновление убеждения

Политика убеждения

Горизонт

Дерево планирования

Поточечная итерация по значениям для POMDP (POMDP-PI)

Альфа-векторы (Alpha Vectors)

Q-MDP

Факторизованный POMDP (Factored POMDP)

DEC-POMDP

Обратное распространение ценности (Value Backup)

Результаты не найдены