AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
叶子生长
一种树的分裂策略,选择具有最大损失减少的叶子进行分裂,与level-wise生长不同,可以用较少的深度实现更快的收敛。
術語
特征分箱
将连续特征离散化为离散区间(箱子)的技术,用于加速分裂点的计算并减少内存占用,代价是轻微的精度损失。
術語
基于梯度的单边采样 (GOSS)
LightGBM的创新采样方法,保留所有具有大梯度的实例,并对小梯度的实例进行随机采样,加速训练而不会显著损失精度。
術語
互斥特征捆绑 (EFB)
一种降维算法,识别并相互排斥的特征(很少同时非零)组合成一个复合特征,从而减少特征数量。
術語
梯度直方图
LightGBM使用的数据结构,用于将梯度和二阶导数存储在箱子中,允许在构建树时快速计算每个潜在分裂点的统计信息。
術語
叶子节点数
LightGBM的主要参数,控制每棵树中叶子节点的最大数量,直接影响模型复杂度和偏差-方差权衡,对于叶子生长比`max_depth`更重要。
術語
L1和L2正则化
应用于叶子权重的正则化参数(`lambda_l1`, `lambda_l2`),通过分别惩罚高权重和权重幅度来控制模型复杂度并防止过拟合。
術語
叶子中最少数据量
叶子中所需的最小样本数(或最小总权重),一个关键参数,用于避免创建过于特定的叶子节点并在LightGBM模型中对抗过拟合。
術語
CatBoost特征处理
LightGBM能够使用特定转换原生处理分类特征,将它们映射为整数,从而避免了手动独热编码,提高了效率。
術語
叶子优先增长过拟合
叶子优先增长的特定风险,模型可能通过创建非常深且专门的叶子而产生过拟合,需要增加正则化(例如,`num_leaves`、`min_data_in_leaf`)来控制。
術語
DART(Dropout与多重加性回归树相遇)
LightGBM中实现的增强变体,在添加新树时对先前的树应用dropout技术,在某些数据集上改善正则化和性能。
🔍