AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
Apache Hadoop MapReduce
用于在集群上处理大型数据集的编程模型和分布式实现,将处理分为Map和Reduce阶段。MapReduce是最早流行的大规模批处理框架之一。
術語
ETL(提取、转换、加载)
数据集成过程,包括从异构源提取数据,根据定义的业务规则进行转换,然后加载到目标系统中。ETL管道通常以批处理方式运行以同步数据。
術語
作业调度
根据预定义计划、依赖关系或事件触发器自动调度批处理任务的机制。现代调度器管理并行化、重试和执行监控。
術語
数据混洗
在分布式处理的聚合或分组阶段,集群节点间数据重新分配的高成本操作。数据混洗通常是MapReduce和Spark作业中的主要性能瓶颈。
術語
HDFS
设计用于在标准机器上存储大型文件的分布式文件系统,通过复制实现容错。HDFS提供适合MapReduce批处理的高性能顺序访问。
術語
YARN
Hadoop生态系统的资源协调器,负责为分布式应用分配CPU、内存和存储资源。YARN允许在同一Hadoop集群上并发运行多个处理框架。
術語
Apache Sqoop
Hadoop与关系数据库之间的双向数据传输工具,针对并行批量导入/导出进行了优化。Sqoop自动生成必要的MapReduce代码以高效移动数据。
術語
Apache Hive
构建在Hadoop上的数据仓库基础设施,提供类似SQL的接口(HQL)用于查询存储在HDFS中的大量数据。Hive将查询转换为MapReduce作业进行批处理执行。
🔍