Глоссарий ИИ
Полный словарь искусственного интеллекта
Состояние убеждения (Belief State)
Вероятностное распределение на множестве возможных состояний, представляющее оценку агентом текущего состояния системы с учетом истории наблюдений и действий.
Функция наблюдения
Вероятностная модель, определяющая вероятность наблюдения определенной информации при заданном реальном состоянии системы и действии, предпринятом агентом.
Пространство наблюдений
Множество всех возможных наблюдений, которые агент может получить от среды, которые могут быть менее информативными, чем реальное состояние.
Обновление убеждения
Процесс, часто основанный на фильтре Байеса, с помощью которого агент обновляет свое распределение убеждений после выполнения действия и получения нового наблюдения.
Политика убеждения
Стратегия, которая отображает каждое возможное состояние убеждения в действие для выполнения, оптимизируя ожидание кумулятивных вознаграждений в долгосрочной перспективе.
Горизонт
Количество шагов, на которые агент планирует, может быть конечным (эпизод) или бесконечным, влияя на то, как будущие вознаграждения дисконтируются.
Дерево планирования
Древовидная структура данных, исследующая возможные последовательности действий и наблюдений для оценки и выбора наилучшей политики в POMDP.
Поточечная итерация по значениям для POMDP (POMDP-PI)
Алгоритм итерации по значениям, который вычисляет оптимальные функции значений для POMDP, представляя функцию значения как набор альфа-векторов.
Альфа-векторы (Alpha Vectors)
Гиперплоскости, составляющие функцию ценности в POMDP, где каждый вектор связан с действием и определяет область пространства убеждений, где это действие является оптимальным.
Q-MDP
Метод аппроксимации для решения POMDP, который предполагает, что ценность действия в состоянии убеждения равна Q-значению действия в наиболее вероятном состоянии этого убеждения.
Факторизованный POMDP (Factored POMDP)
Представление POMDP, в котором пространство состояний и наблюдений структурировано с использованием случайных переменных, что позволяет моделировать зависимости и снижать сложность.
DEC-POMDP
Акроним для Decentralized Partially Observable Markov Decision Process (Децентрализованный частично наблюдаемый марковский процесс принятия решений) - расширение POMDP для нескольких агентов, принимающих решения децентрализованно без прямой коммуникации.
Обратное распространение ценности (Value Backup)
Фундаментальная операция в алгоритмах POMDP, которая обновляет ценность узла убеждения, учитывая значения дочерних узлов, возникающих в результате возможных действий и наблюдений.