Hadoop生态系统 - AI 术语表

📖

个术语

HDFS

Hadoop的主要分布式文件系统，设计用于在标准机器集群上存储PB级数据，具有自动复制和容错功能。

📖

个术语

MapReduce

用于在集群上分布式处理大数据集的编程范式和实现，将任务分为映射和归约阶段。

📖

个术语

YARN

Hadoop资源管理器，负责协调CPU和内存资源分配给应用程序，同时管理集群中任务的生命周期。

📖

个术语

HBase

基于HDFS构建的分布式、面向列的非关系型NoSQL数据库，提供对海量数据的实时访问和强一致性。

📖

个术语

Hive

Hadoop上的数据仓库基础设施，允许使用类似SQL的语言（HiveQL）查询大型数据集，同时使用MapReduce进行执行。

📖

个术语

Pig

使用Pig Latin语言表达复杂数据转换程序的高级数据分析平台，在Hadoop上执行。

📖

个术语

Spark

超快速的大数据统一处理引擎，提供Scala、Java、Python和R的API，支持SQL、流处理、机器学习和图处理。

📖

个术语

ZooKeeper

集中式分布式协调服务，用于维护配置信息、命名、分布式同步和服务组管理。

📖

个术语

Flume

分布式、可靠且可用的服务，用于通过基于代理的架构收集、聚合和移动大量流数据到HDFS。

📖

个术语

Sqoop

专为在Hadoop和结构化数据库（如关系数据库）之间高效批量传输数据而设计的工具。

📖

个术语

Oozie

工作流和协调器系统，用于管理和执行具有时间和条件依赖关系的复杂Hadoop数据处理管道。

📖

个术语

Mahout

分布式机器学习和数据挖掘算法库，在Hadoop MapReduce上实现，用于处理大型数据集。

📖

个术语

Ambari

Hadoop集群管理和监控平台，提供Web界面用于配置、管理和监控完整的Hadoop生态系统。

📖

个术语

HCatalog

Hadoop生态系统的元数据和表管理服务，为Pig、Hive和MapReduce等工具提供统一的数据视图。

📖

个术语

Avro

具有可演进模式的数据序列化系统，为Hadoop服务之间的数据交换提供紧凑快速的数据格式。

📖

个术语

Parquet

列式文件格式，针对Hadoop上的分析查询性能进行优化，具有高效压缩和复杂类型支持。

📖

个术语

Impala

用于Hadoop的大规模并行SQL查询引擎，提供对存储在HDFS和HBase中数据的低延迟交互式查询性能。

📖

个术语

Tez

Hadoop YARN的通用无环数据执行框架，通过消除不必要的MapReduce阶段来优化复杂处理的性能。

📖

个术语

Storm

Hadoop的分布式实时流处理系统，能够以毫秒级延迟处理海量数据。

📖

个术语

Kafka

Hadoop生态系统中用于实时数据流收集和处理的高性能、高可用性分布式消息平台。

AI 词汇表