数据流分类 - AI 詞彙表

📖

術語

流分类

将预定义标签分配给连续流中顺序到达的数据实例的过程，无法重新访问先前数据。该技术能够实时分类数据，同时适应分布中的动态变化。

📖

術語

霍夫丁树

一种增量决策树算法，利用霍夫丁不等式从数据流构建模型，决定何时分裂节点。它保证构建的树与批量数据构建的树在可控概率下渐近相同。

📖

術語

数据流挖掘

研究从连续且可能无限的数据流中提取知识的算法和技术领域。这些算法必须在有限内存和计算资源下一次性处理数据。

📖

術語

增量学习

一种学习范式，模型随着新数据的可用性持续更新，无需完全重新训练。这种方法对于在具有连续数据流的动态环境中演变的系统至关重要。

📖

術語

概念演化

区别于概念漂移的现象，指新的类别随着时间在数据流中出现。概念演化的检测对于在标签可能演变的环境中保持分类模型的相关性至关重要。

📖

術語

流数据集成方法

结合多个分类器以提高数据流分类性能和鲁棒性的技术。这些方法包括自适应装袋、在线提升和基于多样性的方法，以有效处理概念漂移。

📖

術語

VFDT（极快决策树）

使用霍夫丁不等式保证统计有效决策的数据流决策树先驱算法，仅需最少实例数。它是许多现代流分类算法的基础。

📖

術語

漂移检测方法（DDM）

通过监控分类器错误率及其变化来检测概念漂移的统计技术。它使用基于二项分布的置信界限来识别模型性能显著下降的时刻。

📖

術語

流数据K近邻算法

使用高效数据结构如kd树或LSH来维护快速近邻查询的KNN算法对流数据的适应。这些方法必须处理数据演变和流数据固有的内存约束。

📖

術語

流数据朴素贝叶斯

朴素贝叶斯分类器的增量版本，随着新实例到达流中更新条件概率。由于其线性计算复杂度，该算法特别适用于高维数据流。

📖

術語

时间衰减函数

为流中较旧实例分配递减权重的机制，以赋予近期数据更多重要性。这些函数对于使模型适应渐进变化并保持其时间相关性至关重要。

📖

術語

资源感知流挖掘

根据系统约束和负载动态调整计算资源和内存使用的流分类方法。即使在严格的资源限制下，也能保持可接受的性能。

📖

術語

预序评估

专门用于数据流的评估方法，其中每个实例首先用于测试模型，然后用于训练。这种先测试后训练的方法为非平稳数据提供了现实的性能度量。

AI 詞彙表

流分类