特征重要性和选择

📖

个术语

不纯度增益 (Impurity Gain)

决策树中的变量选择标准，用于衡量根据给定特征划分节点所带来的不纯度减少量（例如：基尼指数或熵）。

📖

个术语

基尼重要性 (Gini Importance)

随机森林特有的重要性度量，计算方式为某个变量在森林中所有树上带来的基尼不纯度的平均减少量。

📖

个术语

特征递归 (Feature Recursion)

基于树的模型中的一个概念，指一个特征的重要性受到其在多个深度级别被选择能力的影响，包括在由其他变量创建的子树中。

📖

个术语

剔除列重要性 (Drop Column Importance)

一种评估重要性的方法，通过移除一个变量后重新训练模型，并衡量其性能相对于完整参考模型的下降程度。

📖

个术语

SHAP值 (SHAP Value)

由SHAP方法为单个预测中的某个特征分配的定量分数，代表了该特征对模型预测值与数据集平均预测值之间差异的边际贡献。

📖

个术语

SHAP力图 (SHAP Force Plot)

SHAP特有的一种可视化图表，展示了对于单个观测值，每个特征的SHAP值如何将模型预测从基线值（平均值）“推”向最终的输出值。

📖

个术语

全局重要性 vs 局部重要性

可解释性中的一个基本区别，其中全局重要性评估一个变量在整个模型上的影响，而局部重要性则解释其对特定预测的贡献。

📖

个术语

基于重要性的变量选择

一种降维过程，利用特征的重要性得分来消除不相关或冗余的变量，旨在提高模型的性能和可解释性。

📖

个术语

LASSO回归系数

在选择的情况下，LASSO（最小绝对收缩和选择算子）模型的系数作为重要性指标，因为L1惩罚可以将某些系数精确地减少到零，从而消除相应的变量。

📖

个术语

代理重要性（替代变量重要性）

在基于树的模型中评估重要性的方法，它衡量一个变量作为主要分割变量的替代品（替代分割）来分割数据的能力，表明存在冗余但相关的信息。

📖

个术语

敏感性分析的重要性

通过分析变量值的变化如何影响模型输出来评估变量重要性的方法，通常通过计算偏导数或蒙特卡洛模拟进行。

AI 词汇表