BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

Apache Spark

开源的内存分布式处理框架，旨在通过优化的并行执行加速大数据分析。

RDD（弹性分布式数据集）

Spark的基本数据结构，具有不可变性和分区特性，通过重建丢失数据实现容错能力。

DataFrame

按命名列组织的分布式数据集合，类似于数据库表，针对结构化查询进行了优化。

Spark SQL

Spark模块，集成了SQL查询和DataFrame操作，通过Catalyst优化器实现自动优化。

Spark Streaming

Spark扩展，通过微批处理实现实时数据流处理，具有准实时延迟。

MLlib

Spark的分布式机器学习库，提供分类、回归、聚类和推荐算法。

GraphX

Spark的图处理API，结合了图的优势与RDD的性能。

DAG（有向无环图）

Spark转换执行计划的表示形式，经过优化可消除冗余并实现并行处理。

Spark Driver

协调Spark任务执行的主要进程，创建SparkContext并将操作划分为多个阶段。

Spark Executor

工作进程，在集群的每个节点上执行Driver分配的任务，管理内存和分区数据。

Spark Context

Spark应用程序的主要入口点，管理集群连接并协调对分布式资源的访问。

Partition

Spark中数据分布的逻辑单元，通过将RDD/DataFrame分割成独立片段来实现并行处理。

Shuffle

在分区之间重新分配数据的昂贵操作，在Spark中进行聚合、连接或分组时必需。

Catalyst Optimizer

Spark查询优化引擎，转换和重新组织执行计划以提高性能。

Tungsten

Spark执行后端，通过二进制数据管理和字节码生成来优化内存和CPU使用。

Cache/Persist

将RDD/DataFrame持久化到内存或磁盘的机制，用于快速重用并避免昂贵的重新计算。

广播变量

只读变量，高效分发给所有执行器，在连接操作时最小化网络传输。

累加器

可累加的共享变量，用于以线程安全的方式从并行任务中聚合信息。

转换

惰性操作，创建新的RDD/DataFrame但不立即执行，延迟到触发动作时才执行。

动作

触发DAG计划执行以产生结果的操作，强制计算所有先前的转换。

🔍

搵唔到結果