Robustesse des Modèles

📖

termes

Adversarial Machine Learning

Domaine d'étude des vulnérabilités des modèles d'apprentissage automatique face aux attaques malveillantes conçues pour tromper ou dégrader leurs performances. Cette discipline développe simultanément des techniques d'attaque et des stratégies de défense pour renforcer la sécurité des systèmes IA.

📖

termes

Attaques par évasion

Techniques d'attaque où des perturbations imperceptibles sont appliquées aux données d'entrée pour induire en erreur un modèle déjà entraîné. Ces attaques visent à contourner les décisions du modèle sans modifier ses paramètres internes.

📖

termes

Empoisonnement de données

Méthode d'attaque consistant à injecter des données malveillantes dans l'ensemble d'entraînement pour compromettre les performances du modèle final. L'objectif est de créer des backdoors ou de dégrader systématiquement les prédictions sur des cibles spécifiques.

📖

termes

Entraînement contradictoire

Méthode d'entraînement qui incorpore activement des exemples adversariaux dans le processus d'apprentissage pour améliorer la robustesse du modèle. Cette approche expose le modèle aux types d'attaques qu'il pourrait rencontrer en production.

📖

termes

Lissage aléatoire

Technique de défense certifiée qui ajoute du bruit gaussien aux entrées et classe par vote majoritaire sur plusieurs échantillons bruités. Cette méthode fournit des garanties mathématiques sur la robustesse du modèle contre des perturbations bornées.

📖

termes

Attaques par extraction

Stratégie d'attaque visant à reproduire ou voler un modèle propriétaire en interrogeant son API et analysant ses réponses. Ces attaques exploitent les fuites d'informations à travers les prédictions pour reconstruire le modèle ou ses données d'entraînement.

📖

termes

Certification de robustesse

Processus mathématique garantissant formellement qu'un modèle maintient ses prédictions correctes pour toutes les perturbations dans un rayon défini. Cette certification fournit des bornes supérieures sur la vulnérabilité du modèle face aux attaques.

📖

termes

Masquage de gradient

Technique de défense qui modifie ou masque les gradients du modèle pour empêcher les attaquants de calculer des perturbations adversariales efficaces. Bien que pouvant sembler efficace, cette approche est souvent contournable par des attaques plus sophistiquées.

📖

termes

Attaques universelles adversariales

Type d'attaque où une seule perturbation peut tromper efficacement un modèle sur une large gamme d'entrées différentes. Ces attaques sont particulièrement dangereuses car elles ne nécessitent pas de calculer une perturbation spécifique pour chaque échantillon.

📖

termes

Apprentissage contrastif robuste

Approche d'apprentissage qui maximise la similarité entre les représentations d'un échantillon et ses versions augmentées adversarialement. Cette méthode encourage le modèle à développer des caractéristiques invariantes aux perturbations malveillantes.

📖

termes

Détection d'exemples adversariaux

Ensemble de techniques visant à identifier automatiquement les entrées potentiellement manipulées avant qu'elles ne soient traitées par le modèle principal. Ces systèmes utilisent souvent des méta-classificateurs ou des analyses statistiques des activations.

📖

termes

Entraînement par vérification

Méthode d'entraînement qui intègre des vérificateurs formels dans la boucle d'apprentissage pour garantir des propriétés de robustesse spécifiées. Cette approche combine l'optimisation des performances avec des contraintes de sécurité mathématiquement prouvées.

📖

termes

Attaques physiques adversariales

Attaques où les perturbations adversariales sont appliquées dans le monde réel sur des objets physiques pour tromper les systèmes de vision. Ces attaques doivent tenir compte des conditions d'éclairage, des angles de vue et d'autres variables environnementales.

Glossaire IA

Adversarial Machine Learning

Attaques par évasion

Empoisonnement de données

Entraînement contradictoire

Lissage aléatoire

Attaques par extraction

Certification de robustesse

Masquage de gradient

Attaques universelles adversariales

Apprentissage contrastif robuste

Détection d'exemples adversariaux

Entraînement par vérification

Attaques physiques adversariales

Aucun résultat trouvé