成员推断攻击 - AI 术语表

📖

个术语

影子模型

攻击者训练的人工智能模型，用于模仿目标模型的行为，在成员推理攻击中用于生成参考数据。

📖

个术语

目标模型

成员推理攻击的受害者机器学习模型，攻击者试图确定该模型是否在特定数据上进行了训练。

📖

个术语

隐私泄露

当模型通过其预测或行为无意中泄露关于其训练数据的详细信息时，发生的机密信息泄露。

📖

个术语

过拟合脆弱性

当模型过度学习其训练数据时，对成员推理攻击的易感性增加，对已见和未见样本产生不同的预测。

📖

个术语

置信度差距分析

一种攻击技术，通过分析模型对训练样本与非训练样本之间置信度分数的差异来推断成员关系。

📖

个术语

训练数据提取

比成员推理更具侵入性的攻击，旨在从模型的响应中完全重建训练数据样本。

📖

个术语

对抗者知识

攻击者拥有的关于模型架构、训练算法或数据分布的信息水平，影响成员推理攻击的成功率。

📖

个术语

成员推理优势

量化攻击者在成员推理中相对于随机猜测的优势的指标，衡量隐私泄露的严重程度。

📖

个术语

正则化防御

使用正则化技术（如dropout或L2惩罚）的防御策略，用于减少过拟合和对推理攻击的脆弱性。

📖

个术语

损失函数修改

在训练期间修改损失函数的防御方法，以惩罚过度自信的预测，从而限制成员信息泄露。

📖

个术语

影子数据集

攻击者用于训练影子模型的合成或真实数据集，模仿目标模型训练数据的分布。

AI 词汇表