Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Adversarial Machine Learning
Domaine d'étude des vulnérabilités des modèles d'apprentissage automatique face aux attaques malveillantes conçues pour tromper ou dégrader leurs performances. Cette discipline développe simultanément des techniques d'attaque et des stratégies de défense pour renforcer la sécurité des systèmes IA.
Attaques par évasion
Techniques d'attaque où des perturbations imperceptibles sont appliquées aux données d'entrée pour induire en erreur un modèle déjà entraîné. Ces attaques visent à contourner les décisions du modèle sans modifier ses paramètres internes.
Empoisonnement de données
Méthode d'attaque consistant à injecter des données malveillantes dans l'ensemble d'entraînement pour compromettre les performances du modèle final. L'objectif est de créer des backdoors ou de dégrader systématiquement les prédictions sur des cibles spécifiques.
Entraînement contradictoire
Méthode d'entraînement qui incorpore activement des exemples adversariaux dans le processus d'apprentissage pour améliorer la robustesse du modèle. Cette approche expose le modèle aux types d'attaques qu'il pourrait rencontrer en production.
Lissage aléatoire
Technique de défense certifiée qui ajoute du bruit gaussien aux entrées et classe par vote majoritaire sur plusieurs échantillons bruités. Cette méthode fournit des garanties mathématiques sur la robustesse du modèle contre des perturbations bornées.
Attaques par extraction
Stratégie d'attaque visant à reproduire ou voler un modèle propriétaire en interrogeant son API et analysant ses réponses. Ces attaques exploitent les fuites d'informations à travers les prédictions pour reconstruire le modèle ou ses données d'entraînement.
Certification de robustesse
Processus mathématique garantissant formellement qu'un modèle maintient ses prédictions correctes pour toutes les perturbations dans un rayon défini. Cette certification fournit des bornes supérieures sur la vulnérabilité du modèle face aux attaques.
Masquage de gradient
Technique de défense qui modifie ou masque les gradients du modèle pour empêcher les attaquants de calculer des perturbations adversariales efficaces. Bien que pouvant sembler efficace, cette approche est souvent contournable par des attaques plus sophistiquées.
Attaques universelles adversariales
Type d'attaque où une seule perturbation peut tromper efficacement un modèle sur une large gamme d'entrées différentes. Ces attaques sont particulièrement dangereuses car elles ne nécessitent pas de calculer une perturbation spécifique pour chaque échantillon.
Apprentissage contrastif robuste
Approche d'apprentissage qui maximise la similarité entre les représentations d'un échantillon et ses versions augmentées adversarialement. Cette méthode encourage le modèle à développer des caractéristiques invariantes aux perturbations malveillantes.
Détection d'exemples adversariaux
Ensemble de techniques visant à identifier automatiquement les entrées potentiellement manipulées avant qu'elles ne soient traitées par le modèle principal. Ces systèmes utilisent souvent des méta-classificateurs ou des analyses statistiques des activations.
Entraînement par vérification
Méthode d'entraînement qui intègre des vérificateurs formels dans la boucle d'apprentissage pour garantir des propriétés de robustesse spécifiées. Cette approche combine l'optimisation des performances avec des contraintes de sécurité mathématiquement prouvées.
Attaques physiques adversariales
Attaques où les perturbations adversariales sont appliquées dans le monde réel sur des objets physiques pour tromper les systèmes de vision. Ces attaques doivent tenir compte des conditions d'éclairage, des angles de vue et d'autres variables environnementales.