自动特征选择

📖

術語

套索回归

L1正则化方法，对特征的绝对系数进行惩罚，强制某些系数为零，以实现变量的自动选择。

📖

術語

互信息

量化两个变量之间依赖关系的统计度量，用于评估特征相对于目标变量的相关性。

📖

術語

卡方检验

评估分类特征与目标变量之间独立性的统计检验，用于过滤不相关的变量。

📖

術語

方差分析F检验

比较组间方差的统计方法，用于评估数值特征相对于分类目标变量的重要性。

📖

術語

Boruta算法

基于随机森林的特征选择算法，将真实特征的重要性与随机生成的影子特征进行比较。

📖

術語

SelectKBest

单变量选择方法，根据特定测试（chi2、f_classif、mutual_info_classif）选择统计得分最高的k个特征。

📖

術語

方差阈值

基本的过滤技术，消除方差低于预定阈值的特征，这些特征被认为信息量较少。

📖

術語

序列特征选择

贪婪方法，通过顺序添加或删除特征来优化模型的性能指标，采用前向或后向策略。

📖

術語

用于特征选择的遗传算法

一种元启发式方法，利用自然选择原理来探索特征子集空间，并找到准最优解。

📖

術語

SHAP值

一种基于博弈论的可解释性方法，用于量化每个特征对模型个体预测的影响。

📖

術語

基于相关性的特征选择

一种通过分析特征与目标变量的相关性，同时最小化特征间冗余度来评估特征相关性的方法。

📖

術語

信息增益

一种量化指标，用于衡量当一个特征已知时目标变量熵的减少程度，常用于评估变量的相关性。

📖

術語

Relief算法

一种过滤式特征选择算法，通过比较相似与不相似实例之间的距离来评估变量的相关性。

📖

術語

一个自动化过程，结合多种选择技术来识别最优特征子集，无需人工干预。

📖

術語

嵌入式方法

直接集成在模型训练过程中的特征选择方法，例如决策树或正则化方法。

📖

術語

包装式方法

使用机器学习模型，通过交叉验证或性能指标来评估特征子集质量的选择技术。

AI 詞彙表