Apache Spark

📖

个术语

开源的内存分布式处理框架，旨在通过优化的并行执行加速大数据分析。

📖

个术语

RDD（弹性分布式数据集）

Spark的基本数据结构，具有不可变性和分区特性，通过重建丢失数据实现容错能力。

📖

个术语

DataFrame

按命名列组织的分布式数据集合，类似于数据库表，针对结构化查询进行了优化。

📖

个术语

Spark SQL

Spark模块，集成了SQL查询和DataFrame操作，通过Catalyst优化器实现自动优化。

📖

个术语

Spark Streaming

Spark扩展，通过微批处理实现实时数据流处理，具有准实时延迟。

📖

个术语

MLlib

Spark的分布式机器学习库，提供分类、回归、聚类和推荐算法。

📖

个术语

GraphX

Spark的图处理API，结合了图的优势与RDD的性能。

📖

个术语

DAG（有向无环图）

Spark转换执行计划的表示形式，经过优化可消除冗余并实现并行处理。

📖

个术语

Spark Driver

协调Spark任务执行的主要进程，创建SparkContext并将操作划分为多个阶段。

📖

个术语

Spark Executor

工作进程，在集群的每个节点上执行Driver分配的任务，管理内存和分区数据。

📖

个术语

Spark Context

Spark应用程序的主要入口点，管理集群连接并协调对分布式资源的访问。

📖

个术语

Partition

Spark中数据分布的逻辑单元，通过将RDD/DataFrame分割成独立片段来实现并行处理。

📖

个术语

Shuffle

在分区之间重新分配数据的昂贵操作，在Spark中进行聚合、连接或分组时必需。

📖

个术语

Catalyst Optimizer

Spark查询优化引擎，转换和重新组织执行计划以提高性能。

📖

个术语

Tungsten

Spark执行后端，通过二进制数据管理和字节码生成来优化内存和CPU使用。

📖

个术语

Cache/Persist

将RDD/DataFrame持久化到内存或磁盘的机制，用于快速重用并避免昂贵的重新计算。

📖

个术语

广播变量

只读变量，高效分发给所有执行器，在连接操作时最小化网络传输。

📖

个术语

累加器

可累加的共享变量，用于以线程安全的方式从并行任务中聚合信息。

📖

个术语

转换

惰性操作，创建新的RDD/DataFrame但不立即执行，延迟到触发动作时才执行。

📖

个术语

动作

触发DAG计划执行以产生结果的操作，强制计算所有先前的转换。

AI 词汇表