模型安全 - AI 詞彙表

📖

術語

成员推理

一种隐私攻击类型，攻击者确定特定数据记录是否被用于模型的训练集中，从而侵犯个人隐私。

📖

術語

逆向攻击

通过分析模型输出来近似重建敏感训练数据的攻击，威胁用于学习的信息的机密性。

📖

術語

差分隐私

一种正式的隐私框架，确保如果将单个个体添加到训练数据集中或从中移除，模型的输出只会发生可忽略的变化。

📖

術語

梯度掩码防御

旨在模糊模型梯度以防止攻击者使用基于梯度的方法生成有效对抗性攻击的保护技术。

📖

術語

联邦学习

一种去中心化训练方法，模型在不共享数据的情况下在本地数据上学习，减少了敏感数据从中央存储库泄漏的风险。

📖

術語

模型中的后门

模型中故意引入的漏洞，通常通过数据中毒，使其在特定触发器存在时表现异常。

📖

術語

模型鲁棒性

机器学习模型在面对输入数据扰动（包括随机噪声和目标对抗性攻击）时维持其性能的能力。

📖

術語

鲁棒性认证

提供正式保证的数学过程，确保模型不会被超过特定定义幅度的输入扰动所欺骗。

📖

術語

可迁移性攻击

一种现象，其中为欺骗特定模型而设计的对抗性样本也能成功误导具有不同架构或训练数据的其他模型。

📖

術語

数据集清理

在训练前主动识别和删除数据集中潜在恶意或异常样本的过程，以防止投毒攻击。

📖

術語

敏感度指标

一种定量衡量标准，评估模型预测对其输入数据的微小变化的响应程度，表明其对攻击的脆弱性。

AI 詞彙表