模型的鲁棒性 - AI 詞彙表

📖

術語

对抗性机器学习

研究机器学习模型在面对恶意攻击时的脆弱性的领域，这些攻击旨在欺骗或降低模型性能。该学科同时开发攻击技术和防御策略，以增强AI系统的安全性。

📖

術語

规避攻击

一种攻击技术，通过对输入数据施加无法察觉的扰动来误导已经训练好的模型。这些攻击旨在绕过模型的决策，而不修改其内部参数。

📖

術語

数据投毒

通过向训练集中注入恶意数据来破坏最终模型性能的攻击方法。目标是创建后门或系统性地降低对特定目标的预测准确性。

📖

術語

对抗训练

在学习过程中主动包含对抗样本以提高模型鲁棒性的训练方法。这种方法使模型暴露于它可能在生产环境中遇到的各种攻击类型。

📖

術語

随机平滑

一种经过认证的防御技术，向输入添加高斯噪声并对多个噪声样本进行多数投票分类。该方法为模型对有界扰动的鲁棒性提供数学保证。

📖

術語

提取攻击

旨在通过查询模型的API并分析其响应来复制或窃取专有模型的攻击策略。这些攻击利用通过预测泄露的信息来重建模型或其训练数据。

📖

術語

鲁棒性认证

数学过程，正式保证模型在定义半径内的所有扰动下保持正确预测。该认证为模型面对攻击的脆弱性提供了上限。

📖

術語

梯度掩蔽

修改或隐藏模型梯度以防止攻击者计算有效对抗扰动的防御技术。尽管这种方法可能看起来有效，但通常可以通过更复杂的攻击来绕过。

📖

術語

通用对抗攻击

一种攻击类型，其中单个扰动可以有效欺骗模型在多种不同输入上的表现。这些攻击尤其危险，因为它们不需要为每个样本计算特定的扰动。

📖

術語

鲁棒对比学习

一种学习方法，旨在最大化样本与其对抗性增强版本之间表示的相似性。该方法鼓励模型发展出对恶意扰动具有不变性的特征。

📖

術語

对抗样本检测

一系列技术，旨在输入被主模型处理之前，自动识别出可能被篡改的输入。这些系统通常使用元分类器或对激活进行统计分析。

📖

術語

验证训练

一种训练方法，将形式化验证器集成到学习循环中，以确保满足指定的鲁棒性属性。该方法将性能优化与经过数学证明的安全约束相结合。

📖

術語

物理对抗攻击

一种攻击，其中对抗性扰动被应用于现实世界中的物理对象上，以欺骗视觉系统。这些攻击必须考虑光照条件、视角和其他环境变量。

AI 詞彙表