Глоссарий ИИ
Полный словарь искусственного интеллекта
Атака отравлением данных
Стратегия, при которой злоумышленник внедряет вредоносные данные в обучающий набор для ухудшения производительности модели или создания скрытой лазейки (бэкдора).
Атака извлечением модели
Атака, направленная на кражу параметров или функциональности проприетарной модели путем запросов к её API и использования ответов для дообучения модели-заменителя.
Атака выводом членства
Атака на конфиденциальность, которая определяет, использовалась ли конкретная запись данных в обучающем наборе модели, что нарушает конфиденциальность данных.
Контрпримеры (Adversarial Examples)
Входные данные, часто незаметно измененные, которые разработаны для обмана модели машинного обучения и вызова неверной классификации.
Адверсивная робастность
Способность модели машинного обучения противостоять адверсивным атакам, то есть сохранять свою производительность при столкновении с входными данными, намеренно созданными для её обмана.
Адверсивное обучение
Техника регуляризации, при которой модель обучается на динамически генерируемых контрпримерах для повышения её устойчивости к будущим атакам.
Целенаправленная атака (Targeted Attack)
Тип адверсивной атаки, при которой злоумышленник стремится не просто вызвать неверную классификацию, а заставить модель предсказать определенный, ошибочный класс.
Нецеленаправленная атака (Untargeted Attack)
Адверсивная атака, цель которой — просто вызвать неверную классификацию, независимо от того, какой ошибочный класс предскажет модель.
Атака по черному ящику
Атака, проводимая без знания внутренней архитектуры, параметров или весов модели, основанная исключительно на входных/выходных данных её API.
Атака по белому ящику
Атака, при которой злоумышленник имеет полное знание архитектуры модели, её весов и процедуры обучения, что позволяет проводить более точные атаки.
Атака повторного воспроизведения (Replay Attack)
Атака, при которой злоумышленник записывает легитимные коммуникации (например, запросы к модели) и повторяет их позже для получения несанкционированного ответа или манипулирования системой.
Атака методом знака (Sign Method Attack)
Эффективный метод атаки в сценариях черного ящика, который использует только знак градиента потерь по отношению к входу для генерации противоречивых примеров.
Защита рандомизацией
Техника защиты, которая вводит случайность в модель или входные данные (например, шум, случайные преобразования), чтобы нарушить вычисление градиента злоумышленником.
Оборонительная дистилляция
Метод защиты, при котором модель обучается имитировать выходные вероятности (сглаженные вероятности) предварительно обученной модели, что делает поверхность принятия решений более гладкой и менее чувствительной к атакам.
Атака с помощью универсальных противоречивых возмущений (Universal Adversarial Perturbations)
Атака, направленная на нахождение единственного возмущения (изображения или шума), которое может обмануть модель на широком диапазоне входных данных, независимо от их конкретного содержания.
Формальная проверка на устойчивость
Применение строгих математических методов для формального доказательства того, что модель устойчива ко всем противоречивым возмущениям в заданном множестве.