🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

Apache Hadoop MapReduce

用于在集群上处理大型数据集的编程模型和分布式实现,将处理分为Map和Reduce阶段。MapReduce是最早流行的大规模批处理框架之一。

📖
術語

ETL(提取、转换、加载)

数据集成过程,包括从异构源提取数据,根据定义的业务规则进行转换,然后加载到目标系统中。ETL管道通常以批处理方式运行以同步数据。

📖
術語

作业调度

根据预定义计划、依赖关系或事件触发器自动调度批处理任务的机制。现代调度器管理并行化、重试和执行监控。

📖
術語

数据混洗

在分布式处理的聚合或分组阶段,集群节点间数据重新分配的高成本操作。数据混洗通常是MapReduce和Spark作业中的主要性能瓶颈。

📖
術語

HDFS

设计用于在标准机器上存储大型文件的分布式文件系统,通过复制实现容错。HDFS提供适合MapReduce批处理的高性能顺序访问。

📖
術語

YARN

Hadoop生态系统的资源协调器,负责为分布式应用分配CPU、内存和存储资源。YARN允许在同一Hadoop集群上并发运行多个处理框架。

📖
術語

Apache Sqoop

Hadoop与关系数据库之间的双向数据传输工具,针对并行批量导入/导出进行了优化。Sqoop自动生成必要的MapReduce代码以高效移动数据。

📖
術語

Apache Hive

构建在Hadoop上的数据仓库基础设施,提供类似SQL的接口(HQL)用于查询存储在HDFS中的大量数据。Hive将查询转换为MapReduce作业进行批处理执行。

🔍

搵唔到結果