Глоссарий ИИ
Полный словарь искусственного интеллекта
Многопользовательское обучение с подкреплением
Парадигма обучения, в которой несколько агентов одновременно учатся принимать решения в общей среде, взаимодействуя друг с другом для оптимизации коллективных или индивидуальных целей.
Многопользовательский глубокий детерминированный градиент политики (MADDPG)
Алгоритм CTDE, расширяющий DDPG для многопользовательских сред, использующий централизованные критические сети и децентрализованные акторы для обучения в непрерывных пространствах действий.
Многопользовательский частично наблюдаемый марковский процесс принятия решений (MPOMDP)
Математическая формализация сред MARL, где каждый агент имеет частичные наблюдения и должен выводить глобальное состояние для принятия оптимальных решений.
Игры среднего поля
Теория, изучающая взаимодействия большого количества рациональных агентов путем аппроксимации эффекта толпы средним полем, применимая к крупномасштабным многопользовательским системам.
Непрерывное управление
Область применения MARL, где агенты должны управлять физическими системами с непрерывными действиями, такими как мобильная робототехника или манипуляция объектами.
Стохастические игры
Расширение MDP для многопользовательских сред, где переходы и награды зависят от совместных действий всех агентов, моделирующих кооперативные и соревновательные сценарии.
Равновесие Нэша в MARL
Концепция стабильности, где ни один агент не может улучшить свою награду, односторонне изменив свою стратегию, используемая как критерий сходимости в соревновательных алгоритмах MARL.
Протоколы координации
Механизмы коммуникации или синхронизации, позволяющие агентам согласовывать свои действия для достижения коллективных целей в непрерывных средах MARL.