AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
MapReduce
用于在集群上处理大型数据集的并行编程模型,将处理分为两个主要阶段:Map用于过滤和转换,Reduce用于聚合结果。
術語
Lambda Architecture
数据处理架构,结合了批处理路径进行完整分析和实时路径获取实时结果,通过统一服务层融合两种视图。
術語
Kappa Architecture
Lambda架构的简化版本,仅使用流处理管道,数据实时处理,历史查询通过重放事件来满足。
術語
Batch Processing
数据收集并在预定间隔批量处理的模式,优化吞吐量而非延迟,是传统ETL分析的典型方式。
術語
Stream Processing
在数据生成时持续处理移动中的数据,实现实时分析,捕获与处理之间的延迟最小。
術語
Distributed File System
在多个服务器上存储数据但对用户显示为单一系统的文件系统,通过复制和容错确保可靠性。
術語
HDFS
Hadoop分布式文件系统,设计用于在标准硬件上存储PB级数据,通过块复制实现高容错性。
術語
YARN
Yet Another Resource Negotiator,Hadoop资源管理器,将数据处理与资源管理分离,允许在同一集群上运行多个框架。
術語
RDD
弹性分布式数据集,Spark的基本数据结构,表示一个不可变、分区的对象集合,可以并行计算并具有自动容错能力。
術語
Data Locality
分布式计算原则,任务在包含所需数据的节点上执行,最小化网络传输并显著提高性能。
術語
Speculative Execution
容错机制,在其他节点上启动慢任务的副本,使用第一个完成的结果来减少故障节点或过载节点的影响。
術語
DAG
有向无环图,Spark工作流的表示形式,其中转换被组织成无环有向图,优化步骤的并行执行。
術語
Fault Tolerance
分布式系统在组件故障时仍能正常运行的能力,通常通过冗余、复制和自动恢复机制实现。
術語
Consistency Model
定义分布式系统中数据一致性保证的契约,根据应用需求从强一致性到最终一致性不等。
術語
Combiner
MapReduce优化函数,在每个映射器上本地执行,以减少shuffle期间传输的数据量,在归约阶段之前应用预聚合。
🔍