AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
Apache Spark
开源的内存分布式处理框架,旨在通过优化的并行执行加速大数据分析。
个术语
RDD(弹性分布式数据集)
Spark的基本数据结构,具有不可变性和分区特性,通过重建丢失数据实现容错能力。
个术语
DataFrame
按命名列组织的分布式数据集合,类似于数据库表,针对结构化查询进行了优化。
个术语
Spark SQL
Spark模块,集成了SQL查询和DataFrame操作,通过Catalyst优化器实现自动优化。
个术语
Spark Streaming
Spark扩展,通过微批处理实现实时数据流处理,具有准实时延迟。
个术语
MLlib
Spark的分布式机器学习库,提供分类、回归、聚类和推荐算法。
个术语
GraphX
Spark的图处理API,结合了图的优势与RDD的性能。
个术语
DAG(有向无环图)
Spark转换执行计划的表示形式,经过优化可消除冗余并实现并行处理。
个术语
Spark Driver
协调Spark任务执行的主要进程,创建SparkContext并将操作划分为多个阶段。
个术语
Spark Executor
工作进程,在集群的每个节点上执行Driver分配的任务,管理内存和分区数据。
个术语
Spark Context
Spark应用程序的主要入口点,管理集群连接并协调对分布式资源的访问。
个术语
Partition
Spark中数据分布的逻辑单元,通过将RDD/DataFrame分割成独立片段来实现并行处理。
个术语
Shuffle
在分区之间重新分配数据的昂贵操作,在Spark中进行聚合、连接或分组时必需。
个术语
Catalyst Optimizer
Spark查询优化引擎,转换和重新组织执行计划以提高性能。
个术语
Tungsten
Spark执行后端,通过二进制数据管理和字节码生成来优化内存和CPU使用。
个术语
Cache/Persist
将RDD/DataFrame持久化到内存或磁盘的机制,用于快速重用并避免昂贵的重新计算。
个术语
广播变量
只读变量,高效分发给所有执行器,在连接操作时最小化网络传输。
个术语
累加器
可累加的共享变量,用于以线程安全的方式从并行任务中聚合信息。
个术语
转换
惰性操作,创建新的RDD/DataFrame但不立即执行,延迟到触发动作时才执行。
个术语
动作
触发DAG计划执行以产生结果的操作,强制计算所有先前的转换。
🔍