Глоссарий ИИ
Полный словарь искусственного интеллекта
Состязательное машинное обучение
Область исследований уязвимостей моделей машинного обучения перед злонамеренными атаками, разработанными для обмана или ухудшения их производительности. Эта дисциплина одновременно разрабатывает методы атак и стратегии защиты для повышения безопасности систем ИИ.
Атаки с обходом
Методы атак, при которых к входным данным применяются незаметные возмущения, чтобы ввести в заблуждение уже обученную модель. Эти атаки направлены на обход решений модели без изменения её внутренних параметров.
Отравление данных
Метод атаки, заключающийся во внедрении вредоносных данных в обучающий набор для компрометации производительности итоговой модели. Цель состоит в создании скрытых каналов (backdoors) или систематическом ухудшении прогнозов на конкретных целях.
Состязательное обучение
Метод обучения, который активно включает состязательные примеры в процесс обучения для повышения устойчивости модели. Этот подход знакомит модель с типами атак, с которыми она может столкнуться в производственной среде.
Случайное сглаживание
Сертифицированный метод защиты, который добавляет гауссовский шум к входным данным и классифицирует путем голосования по нескольким зашумленным выборкам. Этот метод предоставляет математические гарантии устойчивости модели к ограниченным возмущениям.
Атаки с извлечением
Стратегия атаки, направленная на воспроизведение или кражу проприетарной модели путем запросов к её API и анализа ответов. Эти атаки используют утечки информации через прогнозы для реконструкции модели или её обучающих данных.
Сертификация устойчивости
Математический процесс, формально гарантирующий, что модель сохраняет правильные прогнозы для всех возмущений в заданном радиусе. Эта сертификация предоставляет верхние границы уязвимости модели перед атаками.
Маскировка градиента
Техника защиты, которая изменяет или маскирует градиенты модели, чтобы помешать злоумышленникам вычислять эффективные состязательные возмущения. Хотя этот подход может показаться эффективным, его часто можно обойти с помощью более сложных атак.
Attaques universelles adversariales
Type d'attaque où une seule perturbation peut tromper efficacement un modèle sur une large gamme d'entrées différentes. Ces attaques sont particulièrement dangereuses car elles ne nécessitent pas de calculer une perturbation spécifique pour chaque échantillon.
Apprentissage contrastif robuste
Approche d'apprentissage qui maximise la similarité entre les représentations d'un échantillon et ses versions augmentées adversarialement. Cette méthode encourage le modèle à développer des caractéristiques invariantes aux perturbations malveillantes.
Détection d'exemples adversariaux
Ensemble de techniques visant à identifier automatiquement les entrées potentiellement manipulées avant qu'elles ne soient traitées par le modèle principal. Ces systèmes utilisent souvent des méta-classificateurs ou des analyses statistiques des activations.
Entraînement par vérification
Méthode d'entraînement qui intègre des vérificateurs formels dans la boucle d'apprentissage pour garantir des propriétés de robustesse spécifiées. Cette approche combine l'optimisation des performances avec des contraintes de sécurité mathématiquement prouvées.
Attaques physiques adversariales
Attaques où les perturbations adversariales sont appliquées dans le monde réel sur des objets physiques pour tromper les systèmes de vision. Ces attaques doivent tenir compte des conditions d'éclairage, des angles de vue et d'autres variables environnementales.