批处理 - AI 术语表

📖

个术语

用于在集群上处理大型数据集的编程模型和分布式实现，将处理分为Map和Reduce阶段。MapReduce是最早流行的大规模批处理框架之一。

📖

个术语

数据集成过程，包括从异构源提取数据，根据定义的业务规则进行转换，然后加载到目标系统中。ETL管道通常以批处理方式运行以同步数据。

📖

个术语

根据预定义计划、依赖关系或事件触发器自动调度批处理任务的机制。现代调度器管理并行化、重试和执行监控。

📖

个术语

在分布式处理的聚合或分组阶段，集群节点间数据重新分配的高成本操作。数据混洗通常是MapReduce和Spark作业中的主要性能瓶颈。

📖

个术语

设计用于在标准机器上存储大型文件的分布式文件系统，通过复制实现容错。HDFS提供适合MapReduce批处理的高性能顺序访问。

📖

个术语

Hadoop生态系统的资源协调器，负责为分布式应用分配CPU、内存和存储资源。YARN允许在同一Hadoop集群上并发运行多个处理框架。

📖

个术语

Hadoop与关系数据库之间的双向数据传输工具，针对并行批量导入/导出进行了优化。Sqoop自动生成必要的MapReduce代码以高效移动数据。

📖

个术语

构建在Hadoop上的数据仓库基础设施，提供类似SQL的接口（HQL）用于查询存储在HDFS中的大量数据。Hive将查询转换为MapReduce作业进行批处理执行。

AI 词汇表