AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
Apache Spark
开源的内存分布式处理框架,旨在通过优化的并行执行加速大数据分析。
術語
RDD(弹性分布式数据集)
Spark的基本数据结构,具有不可变性和分区特性,通过重建丢失数据实现容错能力。
術語
DataFrame
按命名列组织的分布式数据集合,类似于数据库表,针对结构化查询进行了优化。
術語
Spark SQL
Spark模块,集成了SQL查询和DataFrame操作,通过Catalyst优化器实现自动优化。
術語
Spark Streaming
Spark扩展,通过微批处理实现实时数据流处理,具有准实时延迟。
術語
MLlib
Spark的分布式机器学习库,提供分类、回归、聚类和推荐算法。
術語
GraphX
Spark的图处理API,结合了图的优势与RDD的性能。
術語
DAG(有向无环图)
Spark转换执行计划的表示形式,经过优化可消除冗余并实现并行处理。
術語
Spark Driver
协调Spark任务执行的主要进程,创建SparkContext并将操作划分为多个阶段。
術語
Spark Executor
工作进程,在集群的每个节点上执行Driver分配的任务,管理内存和分区数据。
術語
Spark Context
Spark应用程序的主要入口点,管理集群连接并协调对分布式资源的访问。
術語
Partition
Spark中数据分布的逻辑单元,通过将RDD/DataFrame分割成独立片段来实现并行处理。
術語
Shuffle
在分区之间重新分配数据的昂贵操作,在Spark中进行聚合、连接或分组时必需。
術語
Catalyst Optimizer
Spark查询优化引擎,转换和重新组织执行计划以提高性能。
術語
Tungsten
Spark执行后端,通过二进制数据管理和字节码生成来优化内存和CPU使用。
術語
Cache/Persist
将RDD/DataFrame持久化到内存或磁盘的机制,用于快速重用并避免昂贵的重新计算。
術語
广播变量
只读变量,高效分发给所有执行器,在连接操作时最小化网络传输。
術語
累加器
可累加的共享变量,用于以线程安全的方式从并行任务中聚合信息。
術語
转换
惰性操作,创建新的RDD/DataFrame但不立即执行,延迟到触发动作时才执行。
術語
动作
触发DAG计划执行以产生结果的操作,强制计算所有先前的转换。
🔍