AI 詞彙表
人工智能完整詞典
流式聚类
应用于连续数据流的无监督学习技术,用于识别动态群组,无需将完整数据加载到内存中。这种方法允许对大数据中出现的模式进行实时分析。
基于密度的流式聚类
在实时数据流中识别密集区域的聚类方法,能够检测任意形状的聚类并处理噪声。这些方法能够动态适应密度的变化。
增量聚类
随着新数据的到来更新现有聚类而无需完全重新计算模型的方法。这种方法确保了在无限数据流上的计算效率恒定。
基于窗口的聚类
在滑动或递减时间窗口上应用聚类算法以捕捉近期趋势的技术。窗口可以是固定大小、自适应或基于时间的。
演化聚类
捕获聚类结构时间演化的范式,在惩罚剧烈变化的同时适应数据的自然演化。这种方法保持了分组的时间一致性。
在线K均值
K均值算法的自适应变体,随着流中每个新数据的到来增量更新质心。这种方法提供每个点的恒定复杂度,并适应渐进变化。
StreamKM++
用于数据流的聚类算法,结合固定大小的核心集与K-Means++初始化,以确保高质量的近似。这种方法保持线性复杂度并保证理论误差界限。
CluStream
基于微聚类的聚类框架,捕获不同时间窗口中数据的统计特征。这种方法允许在多时间粒度上分析聚类的演化。
DenStream
基于密度的数据流聚类算法,使用潜在微簇和离群点来动态管理不断演化的簇。该方法在检测各种形状的簇和处理噪声方面表现出色。
BIRCH用于流数据
平衡迭代缩减和层次聚类的算法在数据流中的适应,使用动态CF-Tree结构。这种方法允许以对数复杂度进行增量聚类。
时序聚类
将时间维度整合到聚类过程中以识别按照特定时间模式演化的群体的学科。这种方法捕捉数据中的序列、趋势和季节性。
衰减因子
应用于流算法中旧数据权重的指数衰减参数,以给予近期观测更多重要性。这种技术允许逐步适应概念漂移。
流摘要
将数据流压缩为保持聚类基本特征的紧凑表示的过程。技术包括草图、核心集和基于统计矩的摘要。
任意时间聚类
流算法能够在任何时间提供有效聚类结果的特性,其质量随数据增加而提高。这一特性对于需要即时响应的关键应用至关重要。
基于网格的流聚类
将数据空间离散化为多分辨率网格以实现高维数据流高效聚类的方法。该方法提供与点数无关的复杂度,并能很好地适应稀疏数据。
簇维护
在连续流环境中保持簇的一致性和相关性所需的一系列操作。这些操作包括簇的动态合并、分裂、消除和创建。
近似流聚类
通过略微牺牲精度来保证数据流上恒定性能和无限可扩展性的算法类别。这些方法提供关于近似质量的理论保证。
流数据异常检测
在保持相关聚类模型的同时识别数据流中异常的专业技术。这些方法能够区分瞬时异常点和永久性结构变化。