AI 词汇表
人工智能完整词典
HDFS
Hadoop的主要分布式文件系统,设计用于在标准机器集群上存储PB级数据,具有自动复制和容错功能。
MapReduce
用于在集群上分布式处理大数据集的编程范式和实现,将任务分为映射和归约阶段。
YARN
Hadoop资源管理器,负责协调CPU和内存资源分配给应用程序,同时管理集群中任务的生命周期。
HBase
基于HDFS构建的分布式、面向列的非关系型NoSQL数据库,提供对海量数据的实时访问和强一致性。
Hive
Hadoop上的数据仓库基础设施,允许使用类似SQL的语言(HiveQL)查询大型数据集,同时使用MapReduce进行执行。
Pig
使用Pig Latin语言表达复杂数据转换程序的高级数据分析平台,在Hadoop上执行。
Spark
超快速的大数据统一处理引擎,提供Scala、Java、Python和R的API,支持SQL、流处理、机器学习和图处理。
ZooKeeper
集中式分布式协调服务,用于维护配置信息、命名、分布式同步和服务组管理。
Flume
分布式、可靠且可用的服务,用于通过基于代理的架构收集、聚合和移动大量流数据到HDFS。
Sqoop
专为在Hadoop和结构化数据库(如关系数据库)之间高效批量传输数据而设计的工具。
Oozie
工作流和协调器系统,用于管理和执行具有时间和条件依赖关系的复杂Hadoop数据处理管道。
Mahout
分布式机器学习和数据挖掘算法库,在Hadoop MapReduce上实现,用于处理大型数据集。
Ambari
Hadoop集群管理和监控平台,提供Web界面用于配置、管理和监控完整的Hadoop生态系统。
HCatalog
Hadoop生态系统的元数据和表管理服务,为Pig、Hive和MapReduce等工具提供统一的数据视图。
Avro
具有可演进模式的数据序列化系统,为Hadoop服务之间的数据交换提供紧凑快速的数据格式。
Parquet
列式文件格式,针对Hadoop上的分析查询性能进行优化,具有高效压缩和复杂类型支持。
Impala
用于Hadoop的大规模并行SQL查询引擎,提供对存储在HDFS和HBase中数据的低延迟交互式查询性能。
Tez
Hadoop YARN的通用无环数据执行框架,通过消除不必要的MapReduce阶段来优化复杂处理的性能。
Storm
Hadoop的分布式实时流处理系统,能够以毫秒级延迟处理海量数据。
Kafka
Hadoop生态系统中用于实时数据流收集和处理的高性能、高可用性分布式消息平台。