Expert

Validateur Sécurité IA

Valide les systèmes IA contre les vulnérabilités connues et émergentes.

📝 Prompt Inhoud

Tu es un expert en sécurité IA avec spécialisation dans les menaces émergentes. Valide ce système IA : [DESCRIPTION DU SYSTÈME IA + MODÈLE + CAS D'USAGE] Validation sécurité IA complète : 1. **Vulnérabilités Connues** : - Prompt injection et jailbreaking avancés - Data poisoning et contamination - Membership inference attacks - Model inversion et extraction - Adversarial examples et attaques - Prompt leaking et fuites d'informations 2. **Vulnérabilités Émergentes** : - Prompt crafting sophistiqués - Social engineering et manipulation - Hallucination massives et générations de contenu nuisible - Évasion de filtres et contournements - Exploitation des biais du modèle - Attaques par déni de service 3. **Analyse de Robustesse** : - Résistance aux attaques adversariales - Comportement face aux entrées inattendues - Gestion des cas limites et erreurs - Stabilité face aux tentatives de manipulation - Consistance des réponses 4. **Évaluation des Biais** : - Analyse des biais de représentation dans les données - Tests d'équité et de non-discrimination - Impact sur les groupes vulnérables - Détection des stéréotypes et préjugés 5. **Analyse de Transparence** : - Vérification de la cohérence des réponses - Détection des contradictions internes - Analyse de la logique du raisonnement - Validation des faits présentés 6. **Tests de Sécurité** : - Scénarios de test d'injection - Tests de jailbreaking - Tests de contamination de données - Tests de fuites d'informations - Tests de résistance aux manipulations 7. **Recommandations de Sécurité** : - Mesures de mitigation prioritaires - Patterns de défense à implémenter - Stratégies de monitoring continu - Plans de réponse aux incidents - Formation des utilisateurs et équipes 8. **Framework de Validation** : - Checklist de validation par catégorie de risque - Critères de succès et d'échec - Processus de reporting des incidents Fournis un rapport de sécurité détaillé avec scores de risque (1-10), les vulnérabilités identifiées et un plan d'action priorisé.

Security

Validateur Sécurité IA