🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

Apache Hadoop MapReduce

用于在集群上处理大型数据集的编程模型和分布式实现,将处理分为Map和Reduce阶段。MapReduce是最早流行的大规模批处理框架之一。

📖
个术语

ETL(提取、转换、加载)

数据集成过程,包括从异构源提取数据,根据定义的业务规则进行转换,然后加载到目标系统中。ETL管道通常以批处理方式运行以同步数据。

📖
个术语

作业调度

根据预定义计划、依赖关系或事件触发器自动调度批处理任务的机制。现代调度器管理并行化、重试和执行监控。

📖
个术语

数据混洗

在分布式处理的聚合或分组阶段,集群节点间数据重新分配的高成本操作。数据混洗通常是MapReduce和Spark作业中的主要性能瓶颈。

📖
个术语

HDFS

设计用于在标准机器上存储大型文件的分布式文件系统,通过复制实现容错。HDFS提供适合MapReduce批处理的高性能顺序访问。

📖
个术语

YARN

Hadoop生态系统的资源协调器,负责为分布式应用分配CPU、内存和存储资源。YARN允许在同一Hadoop集群上并发运行多个处理框架。

📖
个术语

Apache Sqoop

Hadoop与关系数据库之间的双向数据传输工具,针对并行批量导入/导出进行了优化。Sqoop自动生成必要的MapReduce代码以高效移动数据。

📖
个术语

Apache Hive

构建在Hadoop上的数据仓库基础设施,提供类似SQL的接口(HQL)用于查询存储在HDFS中的大量数据。Hive将查询转换为MapReduce作业进行批处理执行。

🔍

未找到结果