Глоссарий ИИ
Полный словарь искусственного интеллекта
Текстовая состязательная атака
Техника, заключающаяся в тонком изменении входного текста, чтобы ввести в заблуждение модель NLP, сохраняя при этом семантику для человеческого читателя.
Возмущение на уровне символов
Изменение отдельных символов в тексте (вставка, удаление, замена) для создания труднодетектируемых состязательных примеров.
Атака с лексической заменой
Замена слов на семантически близкие синонимы, которые целенаправленно изменяют прогноз модели NLP.
Универсальные состязательные триггеры
Конкретные последовательности слов или символов, которые при вставке в любой текст систематически вызывают ошибку классификации модели.
Атака «черного ящика»
Атака, проводимая без знания внутренних параметров модели, использующая только прогнозы модели для построения состязательных примеров.
Атака «белого ящика»
Атака, использующая полное знание архитектуры и градиентов модели для генерации оптимальных возмущений.
Атака с переносом
Генерация состязательных примеров на исходной модели, которые сохраняют свою эффективность на неизвестных целевых моделях.
Сохранение семантики
Ограничение, обеспечивающее, чтобы текстовые возмущения не меняли общий смысл текста для человеческого читателя.
Attaque par Empoisonnement de Données
Insertion malveillante d'exemples corrompus dans le jeu d'entraînement pour dégrader les performances du modèle pendant sa phase d'apprentissage.
Perturbation Syntaxique
Modification de la structure grammaticale ou syntaxique d'une phrase tout en préservant son sens sémantique pour tromper les modèles NLP.
Masquage de Gradient
Technique de défense qui modifie le gradient du modèle pour empêcher les attaques basées sur l'optimisation, sans nécessairement améliorer la robustesse réelle.
Attaque par Requête
Attaque boîte noire qui optimise les perturbations en interrogeant itérativement le modèle et en analysant ses réponses.
Robustesse Sémantique
Capacité d'un modèle NLP à maintenir des prédictions cohérentes face à des variations textuelles préservant le sens mais modifiant la forme.
Espace de Recherche Adversarial
Ensemble de toutes les modifications possibles du texte qui peuvent être appliquées pour générer des exemples adversariaux valides.
Score de Perturbation
Métrique quantitative évaluant l'ampleur de la modification appliquée au texte original pour créer un exemple adversarial.
Attaque Multi-objectifs
Attaque adversariale cherchant simultanément à tromper le modèle tout en optimisant plusieurs contraintes comme la lisibilité ou la préservation sémantique.
Обнаружение состязательных атак
Защитный механизм, выявляющий потенциально состязательные входные данные на основе статистических или поведенческих аномалий в предсказаниях.