Robustesse des Modèles - Глоссарий ИИ

📖

термины

Состязательное машинное обучение

Область исследований уязвимостей моделей машинного обучения перед злонамеренными атаками, разработанными для обмана или ухудшения их производительности. Эта дисциплина одновременно разрабатывает методы атак и стратегии защиты для повышения безопасности систем ИИ.

📖

термины

Атаки с обходом

Методы атак, при которых к входным данным применяются незаметные возмущения, чтобы ввести в заблуждение уже обученную модель. Эти атаки направлены на обход решений модели без изменения её внутренних параметров.

📖

термины

Отравление данных

Метод атаки, заключающийся во внедрении вредоносных данных в обучающий набор для компрометации производительности итоговой модели. Цель состоит в создании скрытых каналов (backdoors) или систематическом ухудшении прогнозов на конкретных целях.

📖

термины

Состязательное обучение

Метод обучения, который активно включает состязательные примеры в процесс обучения для повышения устойчивости модели. Этот подход знакомит модель с типами атак, с которыми она может столкнуться в производственной среде.

📖

термины

Случайное сглаживание

Сертифицированный метод защиты, который добавляет гауссовский шум к входным данным и классифицирует путем голосования по нескольким зашумленным выборкам. Этот метод предоставляет математические гарантии устойчивости модели к ограниченным возмущениям.

📖

термины

Атаки с извлечением

Стратегия атаки, направленная на воспроизведение или кражу проприетарной модели путем запросов к её API и анализа ответов. Эти атаки используют утечки информации через прогнозы для реконструкции модели или её обучающих данных.

📖

термины

Сертификация устойчивости

Математический процесс, формально гарантирующий, что модель сохраняет правильные прогнозы для всех возмущений в заданном радиусе. Эта сертификация предоставляет верхние границы уязвимости модели перед атаками.

📖

термины

Маскировка градиента

Техника защиты, которая изменяет или маскирует градиенты модели, чтобы помешать злоумышленникам вычислять эффективные состязательные возмущения. Хотя этот подход может показаться эффективным, его часто можно обойти с помощью более сложных атак.

📖

термины

Attaques universelles adversariales

Type d'attaque où une seule perturbation peut tromper efficacement un modèle sur une large gamme d'entrées différentes. Ces attaques sont particulièrement dangereuses car elles ne nécessitent pas de calculer une perturbation spécifique pour chaque échantillon.

📖

термины

Apprentissage contrastif robuste

Approche d'apprentissage qui maximise la similarité entre les représentations d'un échantillon et ses versions augmentées adversarialement. Cette méthode encourage le modèle à développer des caractéristiques invariantes aux perturbations malveillantes.

📖

термины

Détection d'exemples adversariaux

Ensemble de techniques visant à identifier automatiquement les entrées potentiellement manipulées avant qu'elles ne soient traitées par le modèle principal. Ces systèmes utilisent souvent des méta-classificateurs ou des analyses statistiques des activations.

📖

термины

Entraînement par vérification

Méthode d'entraînement qui intègre des vérificateurs formels dans la boucle d'apprentissage pour garantir des propriétés de robustesse spécifiées. Cette approche combine l'optimisation des performances avec des contraintes de sécurité mathématiquement prouvées.

📖

термины

Attaques physiques adversariales

Attaques où les perturbations adversariales sont appliquées dans le monde réel sur des objets physiques pour tromper les systèmes de vision. Ces attaques doivent tenir compte des conditions d'éclairage, des angles de vue et d'autres variables environnementales.

Глоссарий ИИ

Состязательное машинное обучение

Атаки с обходом

Отравление данных

Состязательное обучение

Случайное сглаживание

Атаки с извлечением

Сертификация устойчивости

Маскировка градиента

Attaques universelles adversariales

Apprentissage contrastif robuste

Détection d'exemples adversariaux

Entraînement par vérification

Attaques physiques adversariales

Результаты не найдены