AI 詞彙表
人工智能完整詞典
Attaque Adversaire
Manipulation intentionnelle des données d'entrée pour tromper un modèle IA et provoquer des erreurs de classification ou des comportements imprévus. Ces attaques exploitent les vulnérabilités mathématiques des réseaux de neurones en introduisant des perturbations imperceptibles pour l'humain mais détectables par l'algorithme.
Robustesse Éthique
Capacité d'un système IA à maintenir ses principes éthiques et ses comportements justes face aux tentatives de manipulation ou aux conditions inattendues. Elle garantit la préservation des valeurs morales du système même sous stress ou attaque algorithmique.
Défense Contre-Adversaire
Ensemble de techniques visant à renforcer les modèles IA contre les attaques adverses, incluant l'entraînement adversarial, la détection d'anomalies et la purification des entrées. Ces méthodes visent à maintenir l'intégrité fonctionnelle et éthique du système face aux tentatives de subversion.
Poisoning des Données
Insertion malveillante de données corrompues dans l'ensemble d'entraînement pour compromettre les performances futures du modèle et introduire des biais systémiques. Cette technique peut dégrader intentionnellement les capacités éthiques et décisionnelles du système IA.
Évasion Modèle
Stratégie d'attaque où des entrées spécialement craftées permettent de contourner les mécanismes de détection ou de classification d'un modèle IA. L'évasion menace directement la robustesse éthique en permettant la violation des règles et contraintes morales établies.
Perturbation Éthique
Modification subtile des entrées ou paramètres visant spécifiquement à compromettre les mécanismes de décision éthique d'un système IA. Ces attaques ciblent les couches de jugement moral pour induire des comportements non conformes aux valeurs programmées.
Stabilité Éthique
Mesure de la cohérence des décisions éthiques d'un système IA face à des variations mineures des conditions d'entrée ou d'environnement. La stabilité garantit que les jugements moraux restent constants et prévisibles malgré les fluctuations contextuelles.
Résilience Algorithmique
Capacité d'un système IA à récupérer et maintenir ses performances éthiques après avoir subi des attaques ou des perturbations importantes. La résilience inclut des mécanismes d'auto-correction et d'adaptation pour préserver l'intégrité morale à long terme.
道德安全
人工智能网络安全的一个专门领域,专注于保护道德决策机制免受操纵和破坏。它结合了密码学技术、形式化验证和行为监控,以确保道德完整性。
道德漏洞
人工智能系统架构或实现中的薄弱点,可能被利用来违反其基本道德原则。这些漏洞可能存在于系统的决策层、验证层或道德控制层。
鲁棒性测试
系统性地评估人工智能系统在极端或敌对场景下维持其道德行为的能力。这些测试模拟各种类型的攻击和干扰,以识别和纠正道德缺陷。
道德验证
正式的验证过程,确保人工智能系统即使在对抗性约束下也能持续遵守其道德约束。验证结合了统计测试、形式化验证和行为审计,以确保道德合规性。
道德对策
为预防或中和破坏人工智能系统道德原则的企图而设计的主动或被动机制。这些对策包括异常检测、决策隔离和道德恢复。
对抗性推断
攻击者利用人工智能模型的漏洞推断敏感信息或迫使做出违背道德的决策的过程。对抗性推断直接威胁系统的机密性和道德完整性。
分布鲁棒性
人工智能系统在面对输入数据分布或操作条件变化时维持其道德性能的能力。这种鲁棒性确保了尽管存在分布偏移,道德决策的稳定性。
提取攻击
一种通过系统性地查询人工智能模型来复制其行为(包括其偏见和道德漏洞)的技术。这些攻击可以揭示并利用原始系统的道德缺陷。
道德认证
正式证明人工智能系统在定义条件下(包括面对攻击时)保持其道德保障的过程。道德认证根据公认标准验证道德决策机制的稳健性。
对抗训练
一种训练方法,模型同时学习抵抗攻击并维护其道德原则。这种方法通过在学习过程中让系统面对敌对场景来增强其稳健性。