Attaques sur NLP - Glossaire IA

📖

termes

Attaque Adversariale Textuelle

Technique consistant à modifier subtilement un texte d'entrée pour induire en erreur un modèle NLP tout en préservant la sémantique pour un lecteur humain.

📖

termes

Perturbation au Niveau des Caractères

Modification de caractères individuels dans le texte (insertion, suppression, substitution) pour créer des exemples adversariaux difficiles à détecter.

📖

termes

Attaque par Substitution Lexicale

Remplacement de mots par des synonymes sémantiquement proches mais qui changent la prédiction du modèle NLP de manière ciblée.

📖

termes

Déclencheurs Universels Adversariaux

Séquences de mots ou caractères spécifiques qui, lorsqu'insérées dans n'importe quel texte, provoquent systématiquement une erreur de classification du modèle.

📖

termes

Attaque Boîte Noire

Attaque menée sans connaissance des paramètres internes du modèle, utilisant uniquement les prédictions du modèle pour construire des exemples adversariaux.

📖

termes

Attaque Boîte Blanche

Attaque exploitant la connaissance complète de l'architecture et des gradients du modèle pour générer des perturbations optimales.

📖

termes

Attaque par Transfert

Génération d'exemples adversariaux sur un modèle source qui conservent leur efficacité sur des modèles cibles non connus.

📖

termes

Préservation Sémantique

Contrainte assurant que les perturbations textuelles ne modifient pas le sens global du texte pour un lecteur humain.

📖

termes

Attaque par Empoisonnement de Données

Insertion malveillante d'exemples corrompus dans le jeu d'entraînement pour dégrader les performances du modèle pendant sa phase d'apprentissage.

📖

termes

Perturbation Syntaxique

Modification de la structure grammaticale ou syntaxique d'une phrase tout en préservant son sens sémantique pour tromper les modèles NLP.

📖

termes

Masquage de Gradient

Technique de défense qui modifie le gradient du modèle pour empêcher les attaques basées sur l'optimisation, sans nécessairement améliorer la robustesse réelle.

📖

termes

Attaque par Requête

Attaque boîte noire qui optimise les perturbations en interrogeant itérativement le modèle et en analysant ses réponses.

📖

termes

Robustesse Sémantique

Capacité d'un modèle NLP à maintenir des prédictions cohérentes face à des variations textuelles préservant le sens mais modifiant la forme.

📖

termes

Espace de Recherche Adversarial

Ensemble de toutes les modifications possibles du texte qui peuvent être appliquées pour générer des exemples adversariaux valides.

📖

termes

Score de Perturbation

Métrique quantitative évaluant l'ampleur de la modification appliquée au texte original pour créer un exemple adversarial.

📖

termes

Attaque Multi-objectifs

Attaque adversariale cherchant simultanément à tromper le modèle tout en optimisant plusieurs contraintes comme la lisibilité ou la préservation sémantique.

📖

termes

Détection d'Attaques Adversariales

Mécanisme défensif identifiant les entrées potentiellement adversariales basé sur des anomalies statistiques ou comportementales dans les prédictions.

Glossaire IA

Attaque Adversariale Textuelle

Perturbation au Niveau des Caractères

Attaque par Substitution Lexicale

Déclencheurs Universels Adversariaux

Attaque Boîte Noire

Attaque Boîte Blanche

Attaque par Transfert

Préservation Sémantique

Attaque par Empoisonnement de Données

Perturbation Syntaxique

Masquage de Gradient

Attaque par Requête

Robustesse Sémantique

Espace de Recherche Adversarial

Score de Perturbation

Attaque Multi-objectifs

Détection d'Attaques Adversariales

Aucun résultat trouvé