AI 词汇表
人工智能完整词典
对抗性机器学习
研究机器学习模型在面对恶意攻击时的脆弱性的领域,这些攻击旨在欺骗或降低模型性能。该学科同时开发攻击技术和防御策略,以增强AI系统的安全性。
规避攻击
一种攻击技术,通过对输入数据施加无法察觉的扰动来误导已经训练好的模型。这些攻击旨在绕过模型的决策,而不修改其内部参数。
数据投毒
通过向训练集中注入恶意数据来破坏最终模型性能的攻击方法。目标是创建后门或系统性地降低对特定目标的预测准确性。
对抗训练
在学习过程中主动包含对抗样本以提高模型鲁棒性的训练方法。这种方法使模型暴露于它可能在生产环境中遇到的各种攻击类型。
随机平滑
一种经过认证的防御技术,向输入添加高斯噪声并对多个噪声样本进行多数投票分类。该方法为模型对有界扰动的鲁棒性提供数学保证。
提取攻击
旨在通过查询模型的API并分析其响应来复制或窃取专有模型的攻击策略。这些攻击利用通过预测泄露的信息来重建模型或其训练数据。
鲁棒性认证
数学过程,正式保证模型在定义半径内的所有扰动下保持正确预测。该认证为模型面对攻击的脆弱性提供了上限。
梯度掩蔽
修改或隐藏模型梯度以防止攻击者计算有效对抗扰动的防御技术。尽管这种方法可能看起来有效,但通常可以通过更复杂的攻击来绕过。
通用对抗攻击
一种攻击类型,其中单个扰动可以有效欺骗模型在多种不同输入上的表现。这些攻击尤其危险,因为它们不需要为每个样本计算特定的扰动。
鲁棒对比学习
一种学习方法,旨在最大化样本与其对抗性增强版本之间表示的相似性。该方法鼓励模型发展出对恶意扰动具有不变性的特征。
对抗样本检测
一系列技术,旨在输入被主模型处理之前,自动识别出可能被篡改的输入。这些系统通常使用元分类器或对激活进行统计分析。
验证训练
一种训练方法,将形式化验证器集成到学习循环中,以确保满足指定的鲁棒性属性。该方法将性能优化与经过数学证明的安全约束相结合。
物理对抗攻击
一种攻击,其中对抗性扰动被应用于现实世界中的物理对象上,以欺骗视觉系统。这些攻击必须考虑光照条件、视角和其他环境变量。