可解释性评估指标

📖

術語

忠实性 (Faithfulness)

衡量解释在多大程度上忠实反映模型内部推理的指标，评估解释的预测是否与模型在扰动数据上的预测一致。

📖

術語

可理解性 (Comprehensibility)

对人类理解解释的难易程度进行主观或客观衡量，通常与解释模型的复杂性相关（如规则数量、决策树深度）。

📖

術語

充分性 (Sufficiency)

解释所识别的特征子集能够维持模型原始预测的能力，表明这些特征足以证明决策的合理性。

📖

術語

必要性 (Necessity)

评估被解释识别为重要的特征（或特征集）的缺失是否会显著改变模型的预测。

📖

術語

因果推理得分 (CIS)

量化解释识别真实因果关系而非简单相关关系能力的指标，通过测试对变量的干预效果来实现。

📖

術語

解释鲁棒性 (Explanation Robustness)

衡量当模型或输入数据遭受对抗攻击或噪声时解释的变化程度，评估解释对操纵的抵抗能力。

📖

術語

特征一致性 (Feature Coherence)

评估被解释认为重要的特征在语义或逻辑上是否相互一致，从而增强整体解释的合理性。

📖

術語

选择率 (Selectivity Rate)

衡量解释所使用的特征或规则数量占总可用数量的比例的指标，倾向于支持简洁的解释。

📖

術語

评估者间一致性 (Inter-Annotator Agreement)

评估不同人类专家在解释质量或正确性上共识水平的统计度量（如：Cohen's Kappa分数），验证其主观性。

📖

術語

确认偏误 (Confirmation Bias)

评估解释是否仅强化用户已有信念而不质疑模型的指标，衡量错误解释的风险。

📖

術語

判别能力 (Discriminative Power)

解释清楚区分对预测产生正面影响和负面影响特征的能力，提高解释的清晰度。

📖

術語

全局保真度 (Global Fidelity)

评估解释在整个数据空间中忠实反映模型整体行为的能力，通常以牺牲局部精度为代价。

📖

術語

反事实分数 (Counterfactual Score)

根据改变模型预测所需的最小扰动和生成场景的合理性来评估反事实解释质量的指标。

📖

術語

语义深度 (Semantic Depth)

衡量解释的抽象层次，量化其基于低层特征（像素）还是更易理解的高层概念（对象、想法）。

AI 詞彙表