AI 詞彙表
人工智能完整詞典
C4.5
由Quinlan于1993年开发的监督学习算法,是ID3的扩展版本,能够处理连续属性和缺失数据,使用增益率作为划分标准。
C5.0
由Quinlan开发的C4.5改进版本,提供更优越的性能,更有效地处理大型数据集,并具有生成树集合(boosting)的能力。
增益率
C4.5中使用的划分标准,用于纠正信息增益对具有多个值的属性的偏差,计算为信息增益除以属性的内熵。
内熵
增益率计算中使用的度量,用于惩罚具有大量值的属性,表示属性值分布中包含的潜在信息量。
二值离散化
C4.5使用的技术,通过识别最大化信息增益的最佳分割点,将连续属性转换为二值分类属性。
缺失值处理
C4.5处理具有缺失属性的实例的能力,使用概率加权方法或根据可能的分支按比例分配实例。
悲观剪枝
C4.5中的复杂度降低方法,通过基于二项分布的悲观错误估计来消除非必要分支。
C5.0增强
在C5.0中实现的集成学习技术,结合多个弱决策树创建强分类器,显著提高预测准确性。
最佳分割点
由 C4.5 算法确定的阈值,用于将连续属性划分为两个区间,其选择旨在最大化划分结果的信息增益。
标准化信息增益
信息增益的一种变体,用于在某些情况下避免偏差。它与增益率类似,但采用了稍有不同的数学归一化方法。
C4.5 决策树
由 C4.5 算法生成的层次结构,其中每个内部节点代表对一个属性的测试,每个分支代表一个测试结果,而每个叶节点代表一个类别标签。
C5.0 滑动窗口
C5.0 中的一种优化技术,用于在构建树的过程中高效处理大型数据集。它通过使用一个在整个数据集上移动的样本窗口来实现。
置信系数
C4.5 中的一个参数(通常为 25%),用于剪枝时的错误估计,控制对树分支性能评估时的悲观程度。
C4.5 IF-THEN 规则
由 C4.5 生成的决策树的另一种表示形式,其中每条从根节点到叶节点的路径都被转换为一条条件分类规则。
C4.5 计算复杂度
C4.5 算法的计算成本,其时间复杂度为 O(n * m * log n),其中 n 是实例数量,m 是属性数量,并通过排序和增量计算等技术进行了优化。
多路划分
C4.5 的一种能力,可以为分类属性创建具有两个以上分支的节点,这与其他仅限于二元划分的算法不同。