算法偏见检测 - AI 术语表

📖

个术语

几率均等

一种公平性度量，要求在真实结果给定的条件下，阳性预测的几率与人口群体无关。

📖

个术语

反事实分析

一种可解释性技术，用于评估如果个体的某些特征（尤其是其群体归属）被改变，模型的预测会如何变化。

📖

个术语

预测均等

一项公平性标准，要求所有群体的阳性预测值（PPV）必须相同，以确保阳性预测具有统一的可靠性。

📖

个术语

对抗性去偏

一种偏见缓解方法，它使用对抗性神经网络来学习对敏感属性保持不变的数据表示。

📖

个术语

分组校准

调整模型概率分数的过程，以确保在每个亚人口群体内部，预测都是良好校准的。

📖

个术语

用于公平性的SHAP

应用SHAP（SHapley Additive exPlanations）值，来量化和可视化敏感特征如何导致模型产生歧视性预测。

📖

个术语

公平损失函数

对学习算法的目标函数进行修改，在其中加入惩罚项或约束条件，以鼓励模型满足特定的公平性度量标准。

📖

个术语

敏感属性代理变量

与受保护属性（例如，代表族裔的邮政编码）高度相关的非敏感变量，模型可能利用它来延续间接歧视。

📖

个术语

差异化错误对待

一种偏见形式，其中分类错误率（假阳性、假阴性）在不同人口统计群体之间存在显著差异。

📖

个术语

重新加权

一种预处理技术，通过调整每个训练样本的权重来平衡群体和结果的分布，从而减少模型偏差。

📖

个术语

相互独立

一种形式化公平性标准，要求模型的预测与敏感属性在统计上相互独立，这种独立性可通过互信息来衡量。

AI 词汇表