Состязательные атаки и защита

📖

термины

Атака отравлением данных

Стратегия, при которой злоумышленник внедряет вредоносные данные в обучающий набор для ухудшения производительности модели или создания скрытой лазейки (бэкдора).

📖

термины

Атака извлечением модели

Атака, направленная на кражу параметров или функциональности проприетарной модели путем запросов к её API и использования ответов для дообучения модели-заменителя.

📖

термины

Атака выводом членства

Атака на конфиденциальность, которая определяет, использовалась ли конкретная запись данных в обучающем наборе модели, что нарушает конфиденциальность данных.

📖

термины

Контрпримеры (Adversarial Examples)

Входные данные, часто незаметно измененные, которые разработаны для обмана модели машинного обучения и вызова неверной классификации.

📖

термины

Адверсивная робастность

Способность модели машинного обучения противостоять адверсивным атакам, то есть сохранять свою производительность при столкновении с входными данными, намеренно созданными для её обмана.

📖

термины

Адверсивное обучение

Техника регуляризации, при которой модель обучается на динамически генерируемых контрпримерах для повышения её устойчивости к будущим атакам.

📖

термины

Целенаправленная атака (Targeted Attack)

Тип адверсивной атаки, при которой злоумышленник стремится не просто вызвать неверную классификацию, а заставить модель предсказать определенный, ошибочный класс.

📖

термины

Нецеленаправленная атака (Untargeted Attack)

Адверсивная атака, цель которой — просто вызвать неверную классификацию, независимо от того, какой ошибочный класс предскажет модель.

📖

термины

Атака по черному ящику

Атака, проводимая без знания внутренней архитектуры, параметров или весов модели, основанная исключительно на входных/выходных данных её API.

📖

термины

Атака по белому ящику

Атака, при которой злоумышленник имеет полное знание архитектуры модели, её весов и процедуры обучения, что позволяет проводить более точные атаки.

📖

термины

Атака повторного воспроизведения (Replay Attack)

Атака, при которой злоумышленник записывает легитимные коммуникации (например, запросы к модели) и повторяет их позже для получения несанкционированного ответа или манипулирования системой.

📖

термины

Атака методом знака (Sign Method Attack)

Эффективный метод атаки в сценариях черного ящика, который использует только знак градиента потерь по отношению к входу для генерации противоречивых примеров.

📖

термины

Защита рандомизацией

Техника защиты, которая вводит случайность в модель или входные данные (например, шум, случайные преобразования), чтобы нарушить вычисление градиента злоумышленником.

📖

термины

Метод защиты, при котором модель обучается имитировать выходные вероятности (сглаженные вероятности) предварительно обученной модели, что делает поверхность принятия решений более гладкой и менее чувствительной к атакам.

📖

термины

Атака с помощью универсальных противоречивых возмущений (Universal Adversarial Perturbations)

Атака, направленная на нахождение единственного возмущения (изображения или шума), которое может обмануть модель на широком диапазоне входных данных, независимо от их конкретного содержания.

📖

термины

Формальная проверка на устойчивость

Применение строгих математических методов для формального доказательства того, что модель устойчива ко всем противоречивым возмущениям в заданном множестве.

Глоссарий ИИ

Атака отравлением данных

Атака извлечением модели

Атака выводом членства

Контрпримеры (Adversarial Examples)

Адверсивная робастность

Адверсивное обучение

Целенаправленная атака (Targeted Attack)

Нецеленаправленная атака (Untargeted Attack)

Атака по черному ящику

Атака по белому ящику

Атака повторного воспроизведения (Replay Attack)

Атака методом знака (Sign Method Attack)

Защита рандомизацией

Оборонительная дистилляция

Атака с помощью универсальных противоречивых возмущений (Universal Adversarial Perturbations)

Формальная проверка на устойчивость

Результаты не найдены