🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Игра с нулевой суммой

Теоретический сценарий, в котором общий выигрыш одного агента точно соответствует проигрышу другого, фундаментальный в состязательном многопользовательском обучении для моделирования строгих соревнований.

📖
термины

Алгоритм минимакс

Алгоритм принятия решений, который максимизирует минимально возможный выигрыш в состязательных ситуациях, используемый для разработки устойчивых стратегий против наихудших действий противника.

📖
термины

Равновесие Нэша

Стабильное состояние, в котором ни один агент не может улучшить свою стратегию, односторонне изменяя свое поведение, критически важное для анализа точек равновесия в состязательном MARL.

📖
термины

Самоигра

Методология обучения, при которой агент учится, соревнуясь с копиями самого себя с эволюционирующими стратегиями, устраняя необходимость во внешних данных.

📖
термины

Устойчивая политика

Политика обучения с подкреплением, поддерживающая высокую производительность перед лицом состязательных возмущений или неожиданных изменений в окружающей среде.

📖
термины

Оптимизация наихудшего случая

Парадигма оптимизации, направленная на максимизацию производительности в самых неблагоприятных сценариях, необходимая для разработки устойчивых к состязательным атакам агентов.

📖
термины

Состязательная атака

Преднамеренное действие агента, направленное на ухудшение производительности другого агента путем манипуляции окружающей средой или внедрения вредоносных возмущений.

📖
термины

Стратегия защиты

Совокупность механизмов и политик, предназначенных для обнаружения, противодействия и восстановления от состязательных атак в многопользовательских системах.

📖
термины

Враждебная среда

Среда обучения, разработанная для активного представления вызовов и препятствий агентам, моделирующая реальные враждебные или непредсказуемые условия.

📖
термины

Дистилляция политики

Техника передачи знаний, при которой сложная политика, изученная агентом, сжимается в более простую и эффективную форму, часто используемую после враждебного обучения.

📖
термины

Враждебное обучение с подкреплением

Парадигма обучения с подкреплением, явно интегрирующая враждебных агентов в процесс обучения для повышения устойчивости и способностей к обобщению.

📖
термины

Мультиагентный враждебный бандит

Расширение задачи о многоруком бандите, где несколько агентов взаимодействуют в среде с вознаграждениями, потенциально манипулируемыми противниками.

📖
термины

Враждебное имитационное обучение

Подход имитационного обучения, использующий враждебные дискриминаторы для оценки и улучшения качества имитируемого поведения по сравнению с экспертами.

📖
термины

Тестирование устойчивости

Систематическая оценка производительности агентов в экстремальных сценариях и при скоординированных атаках для измерения их устойчивости и выявления уязвимостей.

📖
термины

Враждебное возмущение

Субтильное, но преднамеренное изменение наблюдений или среды, предназначенное для провоцирования ошибок в принятии решений целевого агента.

📖
термины

Стратегическая неопределенность

Неопределенность относительно намерений и будущих стратегий противников, требующая вероятностных и адаптивных подходов в принятии решений в мультиагентных системах.

📖
термины

Игро-теоретический MARL

Применение теории игр к многозадачному обучению с подкреплением для анализа и оптимизации стратегического поведения в конкурентных контекстах.

🔍

Результаты не найдены