🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Apache Spark

开源的内存分布式处理框架,旨在通过优化的并行执行加速大数据分析。

📖
个术语

RDD(弹性分布式数据集)

Spark的基本数据结构,具有不可变性和分区特性,通过重建丢失数据实现容错能力。

📖
个术语

DataFrame

按命名列组织的分布式数据集合,类似于数据库表,针对结构化查询进行了优化。

📖
个术语

Spark SQL

Spark模块,集成了SQL查询和DataFrame操作,通过Catalyst优化器实现自动优化。

📖
个术语

Spark Streaming

Spark扩展,通过微批处理实现实时数据流处理,具有准实时延迟。

📖
个术语

MLlib

Spark的分布式机器学习库,提供分类、回归、聚类和推荐算法。

📖
个术语

GraphX

Spark的图处理API,结合了图的优势与RDD的性能。

📖
个术语

DAG(有向无环图)

Spark转换执行计划的表示形式,经过优化可消除冗余并实现并行处理。

📖
个术语

Spark Driver

协调Spark任务执行的主要进程,创建SparkContext并将操作划分为多个阶段。

📖
个术语

Spark Executor

工作进程,在集群的每个节点上执行Driver分配的任务,管理内存和分区数据。

📖
个术语

Spark Context

Spark应用程序的主要入口点,管理集群连接并协调对分布式资源的访问。

📖
个术语

Partition

Spark中数据分布的逻辑单元,通过将RDD/DataFrame分割成独立片段来实现并行处理。

📖
个术语

Shuffle

在分区之间重新分配数据的昂贵操作,在Spark中进行聚合、连接或分组时必需。

📖
个术语

Catalyst Optimizer

Spark查询优化引擎,转换和重新组织执行计划以提高性能。

📖
个术语

Tungsten

Spark执行后端,通过二进制数据管理和字节码生成来优化内存和CPU使用。

📖
个术语

Cache/Persist

将RDD/DataFrame持久化到内存或磁盘的机制,用于快速重用并避免昂贵的重新计算。

📖
个术语

广播变量

只读变量,高效分发给所有执行器,在连接操作时最小化网络传输。

📖
个术语

累加器

可累加的共享变量,用于以线程安全的方式从并行任务中聚合信息。

📖
个术语

转换

惰性操作,创建新的RDD/DataFrame但不立即执行,延迟到触发动作时才执行。

📖
个术语

动作

触发DAG计划执行以产生结果的操作,强制计算所有先前的转换。

🔍

未找到结果