MARL Adversarial - Глоссарий ИИ

📖

термины

Игра с нулевой суммой

Теоретический сценарий, в котором общий выигрыш одного агента точно соответствует проигрышу другого, фундаментальный в состязательном многопользовательском обучении для моделирования строгих соревнований.

📖

термины

Алгоритм минимакс

Алгоритм принятия решений, который максимизирует минимально возможный выигрыш в состязательных ситуациях, используемый для разработки устойчивых стратегий против наихудших действий противника.

📖

термины

Равновесие Нэша

Стабильное состояние, в котором ни один агент не может улучшить свою стратегию, односторонне изменяя свое поведение, критически важное для анализа точек равновесия в состязательном MARL.

📖

термины

Самоигра

Методология обучения, при которой агент учится, соревнуясь с копиями самого себя с эволюционирующими стратегиями, устраняя необходимость во внешних данных.

📖

термины

Устойчивая политика

Политика обучения с подкреплением, поддерживающая высокую производительность перед лицом состязательных возмущений или неожиданных изменений в окружающей среде.

📖

термины

Оптимизация наихудшего случая

Парадигма оптимизации, направленная на максимизацию производительности в самых неблагоприятных сценариях, необходимая для разработки устойчивых к состязательным атакам агентов.

📖

термины

Состязательная атака

Преднамеренное действие агента, направленное на ухудшение производительности другого агента путем манипуляции окружающей средой или внедрения вредоносных возмущений.

📖

термины

Стратегия защиты

Совокупность механизмов и политик, предназначенных для обнаружения, противодействия и восстановления от состязательных атак в многопользовательских системах.

📖

термины

Враждебная среда

Среда обучения, разработанная для активного представления вызовов и препятствий агентам, моделирующая реальные враждебные или непредсказуемые условия.

📖

термины

Дистилляция политики

Техника передачи знаний, при которой сложная политика, изученная агентом, сжимается в более простую и эффективную форму, часто используемую после враждебного обучения.

📖

термины

Враждебное обучение с подкреплением

Парадигма обучения с подкреплением, явно интегрирующая враждебных агентов в процесс обучения для повышения устойчивости и способностей к обобщению.

📖

термины

Мультиагентный враждебный бандит

Расширение задачи о многоруком бандите, где несколько агентов взаимодействуют в среде с вознаграждениями, потенциально манипулируемыми противниками.

📖

термины

Враждебное имитационное обучение

Подход имитационного обучения, использующий враждебные дискриминаторы для оценки и улучшения качества имитируемого поведения по сравнению с экспертами.

📖

термины

Тестирование устойчивости

Систематическая оценка производительности агентов в экстремальных сценариях и при скоординированных атаках для измерения их устойчивости и выявления уязвимостей.

📖

термины

Враждебное возмущение

Субтильное, но преднамеренное изменение наблюдений или среды, предназначенное для провоцирования ошибок в принятии решений целевого агента.

📖

термины

Стратегическая неопределенность

Неопределенность относительно намерений и будущих стратегий противников, требующая вероятностных и адаптивных подходов в принятии решений в мультиагентных системах.

📖

термины

Игро-теоретический MARL

Применение теории игр к многозадачному обучению с подкреплением для анализа и оптимизации стратегического поведения в конкурентных контекстах.

Глоссарий ИИ

Игра с нулевой суммой

Алгоритм минимакс

Равновесие Нэша

Самоигра

Устойчивая политика

Оптимизация наихудшего случая

Состязательная атака

Стратегия защиты

Враждебная среда

Дистилляция политики

Враждебное обучение с подкреплением

Мультиагентный враждебный бандит

Враждебное имитационное обучение

Тестирование устойчивости

Враждебное возмущение

Стратегическая неопределенность

Игро-теоретический MARL

Результаты не найдены