分布式计算模型 - AI 术语表

📖

个术语

MapReduce

用于在集群上处理大型数据集的并行编程模型，将处理分为两个主要阶段：Map用于过滤和转换，Reduce用于聚合结果。

📖

个术语

Lambda Architecture

数据处理架构，结合了批处理路径进行完整分析和实时路径获取实时结果，通过统一服务层融合两种视图。

📖

个术语

Kappa Architecture

Lambda架构的简化版本，仅使用流处理管道，数据实时处理，历史查询通过重放事件来满足。

📖

个术语

Batch Processing

数据收集并在预定间隔批量处理的模式，优化吞吐量而非延迟，是传统ETL分析的典型方式。

📖

个术语

Stream Processing

在数据生成时持续处理移动中的数据，实现实时分析，捕获与处理之间的延迟最小。

📖

个术语

Distributed File System

在多个服务器上存储数据但对用户显示为单一系统的文件系统，通过复制和容错确保可靠性。

📖

个术语

HDFS

Hadoop分布式文件系统，设计用于在标准硬件上存储PB级数据，通过块复制实现高容错性。

📖

个术语

YARN

Yet Another Resource Negotiator，Hadoop资源管理器，将数据处理与资源管理分离，允许在同一集群上运行多个框架。

📖

个术语

RDD

弹性分布式数据集，Spark的基本数据结构，表示一个不可变、分区的对象集合，可以并行计算并具有自动容错能力。

📖

个术语

Data Locality

分布式计算原则，任务在包含所需数据的节点上执行，最小化网络传输并显著提高性能。

📖

个术语

Speculative Execution

容错机制，在其他节点上启动慢任务的副本，使用第一个完成的结果来减少故障节点或过载节点的影响。

📖

个术语

DAG

有向无环图，Spark工作流的表示形式，其中转换被组织成无环有向图，优化步骤的并行执行。

📖

个术语

Fault Tolerance

分布式系统在组件故障时仍能正常运行的能力，通常通过冗余、复制和自动恢复机制实现。

📖

个术语

Consistency Model

定义分布式系统中数据一致性保证的契约，根据应用需求从强一致性到最终一致性不等。

📖

个术语

Combiner

MapReduce优化函数，在每个映射器上本地执行，以减少shuffle期间传输的数据量，在归约阶段之前应用预聚合。

AI 词汇表