AI 詞彙表
人工智能完整詞典
Apache Kafka
开源分布式流处理平台,设计用于处理高吞吐量和低延迟的实时数据流,用作消息代理和日志存储系统。
Apache Flink
分布式流处理和批处理框架,提供复杂事件处理能力,具有状态管理和精确一次语义,适用于实时应用。
窗口化
流处理的基本技术,将连续数据流划分为基于时间或计数的窗口,以便对数据子集进行聚合和分析。
背压
流量控制机制,当消费者无法跟上数据生产速度时,允许处理系统调节数据生产者的速率,防止系统过载。
水印
嵌入数据流中的时间标记,用于跟踪事件时间的进展,并在流处理系统中处理延迟数据。
有状态处理
处理范式,其中操作在事件之间维护持久状态,对于数据流中的聚合、连接和复杂模式检测至关重要。
精确一次语义
处理保证,确保流中的每个事件即使发生故障也能被精确处理一次,结合至少一次交付和消费者端的去重。
复杂事件处理
事件处理技术,从多个事件流中实时识别有意义的模式和复杂关联,以触发即时行动。
微批处理
一种混合方法,通过在短时间间隔内收集事件的微批次来处理数据流,结合了批处理和纯事件处理的优点。
事件溯源
一种架构模式,所有状态更改都作为不可变的事件序列记录,允许重建过去状态和系统完整审计。
Apache Storm
专为极低延迟设计的分布式实时流处理系统,使用spouts和bolts拓扑来转换和分析数据流。
变更数据捕获(CDC)
一种技术,捕获并传播事务性数据库中的数据更改到实时流系统,实现持续同步和分析。
事件时间 vs 处理时间
两个基本时间概念,事件时间对应事件实际发生的时刻,而处理时间是系统处理事件的时刻。
流分析
在连续数据流上应用高级分析技术的学科,用于提取洞察、检测异常和实时决策。
流式数据管道
专门为连续处理设计的数据管道架构,数据流经多个转换和丰富阶段而无需中间存储。
消息队列
中间件组件,确保消息生产者和消费者之间的异步通信,保证分布式架构中事件的可靠传递。
实时ETL
在实时数据流上持续运行的提取、转换和加载过程,与定期执行的批量传统ETL不同。
Apache Beam
统一的批处理和流数据处理框架,提供可在多个运行器(如Flink、Spark或Dataflow)上执行的抽象编程模型。