Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Attaques White-Box
Attaques où l'adversaire connaît complètement l'architecture et les paramètres du modèle cible.
Attaques Black-Box
Attaques réalisées sans connaissance interne du modèle, uniquement par interactions avec ses entrées/sorties.
Attaques par Evasion
Perturbations subtilles des données d'entrée pour tromper le modèle lors de l'inférence.
Attaques par Empoisonnement
Injection de données malveillantes dans l'ensemble d'entraînement pour compromettre le modèle.
Attaques par Extraction de Modèle
Vol des paramètres ou de la fonctionnalité d'un modèle propriétaire par requêtes répétées.
Attaques par Inférence d'Appartenance
Détermination si un point de données spécifique faisait partie de l'ensemble d'entraînement.
Défense par Adversarial Training
Entraînement du modèle sur des exemples adversariaux générés pour améliorer sa robustesse.
Défense par Détection d'Attaques
Mécanismes pour identifier et rejeter les entrées potentiellement adversariales.
Défense par Gradient Masking
Techniques masquant les gradients pour empêcher les attaques basées sur l'optimisation.
Attaques sur Vision par Ordinateur
Attaques spécifiquement conçues pour tromper les modèles de classification d'images et de détection d'objets.
Attaques sur NLP
Perturbations textuelles subtiles pour tromper les modèles de traitement du langage naturel.
Attaques par Transfert
Attaques générées sur un modèle source mais efficaces contre des modèles cibles différents.
Défense par Randomisation
Introduction de stochasticité dans le processus d'inférence pour perturber les attaques.
Attaques sur Modèles Audio
Perturbations sonores imperceptibles conçues pour tromper les systèmes de reconnaissance vocale.
Évaluation de Robustesse
Métriques et benchmarks pour quantifier la résistance des modèles aux attaques adversariales.