Глоссарий ИИ
Полный словарь искусственного интеллекта
Игра с нулевой суммой
Теоретический сценарий, в котором общий выигрыш одного агента точно соответствует проигрышу другого, фундаментальный в состязательном многопользовательском обучении для моделирования строгих соревнований.
Алгоритм минимакс
Алгоритм принятия решений, который максимизирует минимально возможный выигрыш в состязательных ситуациях, используемый для разработки устойчивых стратегий против наихудших действий противника.
Равновесие Нэша
Стабильное состояние, в котором ни один агент не может улучшить свою стратегию, односторонне изменяя свое поведение, критически важное для анализа точек равновесия в состязательном MARL.
Самоигра
Методология обучения, при которой агент учится, соревнуясь с копиями самого себя с эволюционирующими стратегиями, устраняя необходимость во внешних данных.
Устойчивая политика
Политика обучения с подкреплением, поддерживающая высокую производительность перед лицом состязательных возмущений или неожиданных изменений в окружающей среде.
Оптимизация наихудшего случая
Парадигма оптимизации, направленная на максимизацию производительности в самых неблагоприятных сценариях, необходимая для разработки устойчивых к состязательным атакам агентов.
Состязательная атака
Преднамеренное действие агента, направленное на ухудшение производительности другого агента путем манипуляции окружающей средой или внедрения вредоносных возмущений.
Стратегия защиты
Совокупность механизмов и политик, предназначенных для обнаружения, противодействия и восстановления от состязательных атак в многопользовательских системах.
Враждебная среда
Среда обучения, разработанная для активного представления вызовов и препятствий агентам, моделирующая реальные враждебные или непредсказуемые условия.
Дистилляция политики
Техника передачи знаний, при которой сложная политика, изученная агентом, сжимается в более простую и эффективную форму, часто используемую после враждебного обучения.
Враждебное обучение с подкреплением
Парадигма обучения с подкреплением, явно интегрирующая враждебных агентов в процесс обучения для повышения устойчивости и способностей к обобщению.
Мультиагентный враждебный бандит
Расширение задачи о многоруком бандите, где несколько агентов взаимодействуют в среде с вознаграждениями, потенциально манипулируемыми противниками.
Враждебное имитационное обучение
Подход имитационного обучения, использующий враждебные дискриминаторы для оценки и улучшения качества имитируемого поведения по сравнению с экспертами.
Тестирование устойчивости
Систематическая оценка производительности агентов в экстремальных сценариях и при скоординированных атаках для измерения их устойчивости и выявления уязвимостей.
Враждебное возмущение
Субтильное, но преднамеренное изменение наблюдений или среды, предназначенное для провоцирования ошибок в принятии решений целевого агента.
Стратегическая неопределенность
Неопределенность относительно намерений и будущих стратегий противников, требующая вероятностных и адаптивных подходов в принятии решений в мультиагентных системах.
Игро-теоретический MARL
Применение теории игр к многозадачному обучению с подкреплением для анализа и оптимизации стратегического поведения в конкурентных контекстах.