特征选择

📖

術語

自动选择最相关变量以构建最优预测模型的过程，通过降低维度和提高泛化能力来实现。

📖

術語

过滤方法

独立于模型的特征选择技术，在训练前根据统计标准单独评估每个变量。

📖

術語

包装方法

使用预测模型评估特征子集的选择方法，通常更精确但计算密集。

📖

術語

嵌入式方法

将选择和训练结合的策略，其中选择过程直接集成到模型训练算法中。

📖

術語

递归特征消除

迭代算法，通过在每个步骤重新训练模型逐步移除最不重要的特征，直到达到最优变量数量。

📖

術語

互信息

量化两个变量之间统计依赖性的度量，用于评估特征相对于目标变量的相关性。

📖

術語

方差阈值

基本的过滤技术，消除方差低于预定阈值的特征，这些特征被认为信息量较少。

📖

術語

卡方检验

评估分类变量之间独立性的统计检验，用于衡量定性特征相对于目标变量的相关性。

📖

術語

F检验ANOVA

统计检验方法，通过比较组间方差来评估数值特征与分类目标变量之间的关系。

📖

術語

顺序选择

贪心方法，通过顺序添加（前向）或删除（后向）特征来优化模型的性能指标。

📖

術語

Boruta算法

基于随机森林的包装方法，通过将特征重要性与随机影子变量进行比较来识别所有相关特征。

📖

術語

置换重要性

模型无关技术，通过测量特征值随机置换后性能下降程度来评估特征重要性。

📖

術語

Relief算法

过滤方法，通过评估特征区分不同类别邻近实例的能力来衡量特征相关性。

AI 詞彙表