Глоссарий ИИ
Полный словарь искусственного интеллекта
POMDP (Частично Наблюдаемый Марковский Процесс Принятия Решений)
Теоретическая структура, моделирующая среды, где агент воспринимает лишь частичное наблюдение реального состояния, требующая вероятностного вывода о скрытом состоянии для принятия оптимальных решений.
Пространство Наблюдений
Множество частичных сенсорных сигналов, которые каждый агент может воспринимать из окружающей среды, представляющее неполную информацию о глобальном состоянии системы.
Состояние Убеждения
Распределение вероятностей по пространству скрытых состояний, которое агент поддерживает и обновляет на основе своих последовательных наблюдений для представления своей неопределенности о реальном состоянии окружающей среды.
Протокол Связи
Механизм, определяющий когда, как и какую информацию агенты могут обмениваться между собой для координации своих действий в частично наблюдаемой среде.
Централизованное Обучение с Децентрализованным Выполнением
Подход, при котором агенты обучаются с использованием глобальной информации (состояния, действия всех), но выполняют свои политики индивидуально, используя только свои локальные наблюдения.
Факторизация Функции Ценности
Техника разложения глобальной функции ценности в сумму индивидуальных или локальных функций ценности, позволяющая децентрализованное обучение при сохранении глобальной согласованности.
Моделирование Противников
Процесс вывода политик или намерений других агентов на основе их наблюдаемого поведения, критически важный для принятия решений в конкурентных или кооперативных средах.
Проблема Распределения Заслуг
Сложность правильного приписывания глобального вознаграждения каждому агенту в многопользовательской системе, особенно сложная когда наблюдения частичны и действия взаимозависимы.
Совместное обучение действиям
Метод, при котором агенты учатся координировать свои действия, явно моделируя влияние совместных действий на общее вознаграждение, несмотря на частичную наблюдаемость.
Оценка состояния
Алгоритмический процесс, позволяющий агенту выводить наиболее вероятное глобальное состояние на основе своих локальных наблюдений и модели окружающей среды.
Обмен информацией
Стратегия, определяющая, как агенты распределяют и агрегируют свои локальные наблюдения для улучшения коллективного знания о состоянии окружающей среды.
История локальных наблюдений
Временная последовательность прошлых наблюдений агента, используемая в качестве дополнительного контекста для компенсации недостатка информации о текущем глобальном состоянии.
Мультиагентная частичная наблюдаемость
Условие, при котором ни один отдельный агент не может наблюдать полное состояние системы, что требует стратегий координации и вывода для достижения оптимальной производительности.
Децентрализованная политика
Функция принятия решений для каждого агента, которая отображает историю его локальных наблюдений в действие без прямой зависимости от информации других агентов во время выполнения.
Общее знание
Информация, которую знают все агенты и которую они знают, что другие также знают, что необходимо для координации в условиях частичной наблюдаемости.
Граф координации
Структура, представляющая зависимости взаимодействия между агентами, позволяющая факторизовать глобальную проблему принятия решений на более простые локальные подзадачи.