Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Attaque Adversariale Textuelle
Technique consistant à modifier subtilement un texte d'entrée pour induire en erreur un modèle NLP tout en préservant la sémantique pour un lecteur humain.
Perturbation au Niveau des Caractères
Modification de caractères individuels dans le texte (insertion, suppression, substitution) pour créer des exemples adversariaux difficiles à détecter.
Attaque par Substitution Lexicale
Remplacement de mots par des synonymes sémantiquement proches mais qui changent la prédiction du modèle NLP de manière ciblée.
Déclencheurs Universels Adversariaux
Séquences de mots ou caractères spécifiques qui, lorsqu'insérées dans n'importe quel texte, provoquent systématiquement une erreur de classification du modèle.
Attaque Boîte Noire
Attaque menée sans connaissance des paramètres internes du modèle, utilisant uniquement les prédictions du modèle pour construire des exemples adversariaux.
Attaque Boîte Blanche
Attaque exploitant la connaissance complète de l'architecture et des gradients du modèle pour générer des perturbations optimales.
Attaque par Transfert
Génération d'exemples adversariaux sur un modèle source qui conservent leur efficacité sur des modèles cibles non connus.
Préservation Sémantique
Contrainte assurant que les perturbations textuelles ne modifient pas le sens global du texte pour un lecteur humain.
Attaque par Empoisonnement de Données
Insertion malveillante d'exemples corrompus dans le jeu d'entraînement pour dégrader les performances du modèle pendant sa phase d'apprentissage.
Perturbation Syntaxique
Modification de la structure grammaticale ou syntaxique d'une phrase tout en préservant son sens sémantique pour tromper les modèles NLP.
Masquage de Gradient
Technique de défense qui modifie le gradient du modèle pour empêcher les attaques basées sur l'optimisation, sans nécessairement améliorer la robustesse réelle.
Attaque par Requête
Attaque boîte noire qui optimise les perturbations en interrogeant itérativement le modèle et en analysant ses réponses.
Robustesse Sémantique
Capacité d'un modèle NLP à maintenir des prédictions cohérentes face à des variations textuelles préservant le sens mais modifiant la forme.
Espace de Recherche Adversarial
Ensemble de toutes les modifications possibles du texte qui peuvent être appliquées pour générer des exemples adversariaux valides.
Score de Perturbation
Métrique quantitative évaluant l'ampleur de la modification appliquée au texte original pour créer un exemple adversarial.
Attaque Multi-objectifs
Attaque adversariale cherchant simultanément à tromper le modèle tout en optimisant plusieurs contraintes comme la lisibilité ou la préservation sémantique.
Détection d'Attaques Adversariales
Mécanisme défensif identifiant les entrées potentiellement adversariales basé sur des anomalies statistiques ou comportementales dans les prédictions.