MARL Частично Наблюдаемый

📖

термины

POMDP (Частично Наблюдаемый Марковский Процесс Принятия Решений)

Теоретическая структура, моделирующая среды, где агент воспринимает лишь частичное наблюдение реального состояния, требующая вероятностного вывода о скрытом состоянии для принятия оптимальных решений.

📖

термины

Пространство Наблюдений

Множество частичных сенсорных сигналов, которые каждый агент может воспринимать из окружающей среды, представляющее неполную информацию о глобальном состоянии системы.

📖

термины

Состояние Убеждения

Распределение вероятностей по пространству скрытых состояний, которое агент поддерживает и обновляет на основе своих последовательных наблюдений для представления своей неопределенности о реальном состоянии окружающей среды.

📖

термины

Протокол Связи

Механизм, определяющий когда, как и какую информацию агенты могут обмениваться между собой для координации своих действий в частично наблюдаемой среде.

📖

термины

Централизованное Обучение с Децентрализованным Выполнением

Подход, при котором агенты обучаются с использованием глобальной информации (состояния, действия всех), но выполняют свои политики индивидуально, используя только свои локальные наблюдения.

📖

термины

Факторизация Функции Ценности

Техника разложения глобальной функции ценности в сумму индивидуальных или локальных функций ценности, позволяющая децентрализованное обучение при сохранении глобальной согласованности.

📖

термины

Моделирование Противников

Процесс вывода политик или намерений других агентов на основе их наблюдаемого поведения, критически важный для принятия решений в конкурентных или кооперативных средах.

📖

термины

Проблема Распределения Заслуг

Сложность правильного приписывания глобального вознаграждения каждому агенту в многопользовательской системе, особенно сложная когда наблюдения частичны и действия взаимозависимы.

📖

термины

Совместное обучение действиям

Метод, при котором агенты учатся координировать свои действия, явно моделируя влияние совместных действий на общее вознаграждение, несмотря на частичную наблюдаемость.

📖

термины

Оценка состояния

Алгоритмический процесс, позволяющий агенту выводить наиболее вероятное глобальное состояние на основе своих локальных наблюдений и модели окружающей среды.

📖

термины

Обмен информацией

Стратегия, определяющая, как агенты распределяют и агрегируют свои локальные наблюдения для улучшения коллективного знания о состоянии окружающей среды.

📖

термины

История локальных наблюдений

Временная последовательность прошлых наблюдений агента, используемая в качестве дополнительного контекста для компенсации недостатка информации о текущем глобальном состоянии.

📖

термины

Мультиагентная частичная наблюдаемость

Условие, при котором ни один отдельный агент не может наблюдать полное состояние системы, что требует стратегий координации и вывода для достижения оптимальной производительности.

📖

термины

Децентрализованная политика

Функция принятия решений для каждого агента, которая отображает историю его локальных наблюдений в действие без прямой зависимости от информации других агентов во время выполнения.

📖

термины

Общее знание

Информация, которую знают все агенты и которую они знают, что другие также знают, что необходимо для координации в условиях частичной наблюдаемости.

📖

термины

Граф координации

Структура, представляющая зависимости взаимодействия между агентами, позволяющая факторизовать глобальную проблему принятия решений на более простые локальные подзадачи.

Глоссарий ИИ

POMDP (Частично Наблюдаемый Марковский Процесс Принятия Решений)

Пространство Наблюдений

Состояние Убеждения

Протокол Связи

Централизованное Обучение с Децентрализованным Выполнением

Факторизация Функции Ценности

Моделирование Противников

Проблема Распределения Заслуг

Совместное обучение действиям

Оценка состояния

Обмен информацией

История локальных наблюдений

Мультиагентная частичная наблюдаемость

Децентрализованная политика

Общее знание

Граф координации

Результаты не найдены