C4.5 et C5.0 - AI 詞彙表

📖

術語

C4.5

由Quinlan于1993年开发的监督学习算法，是ID3的扩展版本，能够处理连续属性和缺失数据，使用增益率作为划分标准。

📖

術語

C5.0

由Quinlan开发的C4.5改进版本，提供更优越的性能，更有效地处理大型数据集，并具有生成树集合（boosting）的能力。

📖

術語

增益率

C4.5中使用的划分标准，用于纠正信息增益对具有多个值的属性的偏差，计算为信息增益除以属性的内熵。

📖

術語

内熵

增益率计算中使用的度量，用于惩罚具有大量值的属性，表示属性值分布中包含的潜在信息量。

📖

術語

二值离散化

C4.5使用的技术，通过识别最大化信息增益的最佳分割点，将连续属性转换为二值分类属性。

📖

術語

缺失值处理

C4.5处理具有缺失属性的实例的能力，使用概率加权方法或根据可能的分支按比例分配实例。

📖

術語

悲观剪枝

C4.5中的复杂度降低方法，通过基于二项分布的悲观错误估计来消除非必要分支。

📖

術語

C5.0增强

在C5.0中实现的集成学习技术，结合多个弱决策树创建强分类器，显著提高预测准确性。

📖

術語

最佳分割点

由 C4.5 算法确定的阈值，用于将连续属性划分为两个区间，其选择旨在最大化划分结果的信息增益。

📖

術語

标准化信息增益

信息增益的一种变体，用于在某些情况下避免偏差。它与增益率类似，但采用了稍有不同的数学归一化方法。

📖

術語

C4.5 决策树

由 C4.5 算法生成的层次结构，其中每个内部节点代表对一个属性的测试，每个分支代表一个测试结果，而每个叶节点代表一个类别标签。

📖

術語

C5.0 滑动窗口

C5.0 中的一种优化技术，用于在构建树的过程中高效处理大型数据集。它通过使用一个在整个数据集上移动的样本窗口来实现。

📖

術語

置信系数

C4.5 中的一个参数（通常为 25%），用于剪枝时的错误估计，控制对树分支性能评估时的悲观程度。

📖

術語

C4.5 IF-THEN 规则

由 C4.5 生成的决策树的另一种表示形式，其中每条从根节点到叶节点的路径都被转换为一条条件分类规则。

📖

術語

C4.5 计算复杂度

C4.5 算法的计算成本，其时间复杂度为 O(n * m * log n)，其中 n 是实例数量，m 是属性数量，并通过排序和增量计算等技术进行了优化。

📖

術語

多路划分

C4.5 的一种能力，可以为分类属性创建具有两个以上分支的节点，这与其他仅限于二元划分的算法不同。

AI 詞彙表