数据湖

📖

術語

集中式存储库，旨在以原始格式存储大量数据。它允许在PB级别存储结构化、半结构化和非结构化数据。

📖

術語

数据沼泽

失去治理和组织的数据湖，使得数据难以访问和使用。这是由于缺乏元数据管理和适当文档造成的。

📖

術語

数据湖仓

结合数据湖和数据仓库优势的混合架构，提供统一的数据管理。它允许直接分析存储在开放且性能优化的格式中的数据。

📖

術語

数据摄取

从各种来源收集和传输数据到集中存储系统（如数据湖）的过程。可以根据业务需求通过实时、批处理或流式处理实现。

📖

術語

读时模式

在读取时而非写入时应用数据结构的方法。它提供了最大的灵活性来存储异构数据，无需预先定义模式。

📖

術語

写时模式

传统方法，在将数据写入系统之前必须定义数据模式。它保证了数据的质量和一致性，但降低了存储的灵活性。

📖

術語

数据目录

组织和索引的元数据，描述数据湖中可用的数据。它通过集中式界面促进数据的发现、理解和治理。

📖

術語

数据治理

定义组织内数据管理的一套政策、流程和标准。它确保数据湖中数据的质量、安全性、合规性和适当使用。

📖

術語

数据分区

基于特定标准（如日期或类别）将数据划分为更小段的技术。通过限制只读取相关分区来优化查询性能。

📖

術語

数据分片

将数据水平分区并分布在多个服务器上，以提高可扩展性和性能。每个分片包含总数据的唯一子集。

📖

術語

数据复制

将数据从一个位置复制到另一个位置的过程，以确保高可用性和容错性。根据一致性要求可以是同步或异步的。

📖

術語

数据版本控制

在数据湖中跟踪和管理数据随时间变化的机制。它便于审计、错误恢复和时间趋势分析。

📖

術語

数据血缘

数据从源头到最终目的地的完整生命周期可追溯性。它记录了不同数据实体之间的转换、移动和关系。

📖

術語

数据网格

将数据作为分布式产品处理的去中心化数据管理架构。通过促进功能领域的自主性来消除中心团队的瓶颈。

📖

術語

Delta Lake

为构建在分布式文件系统上的数据湖带来ACID事务的开源存储层。它允许对parquet数据进行更新、删除和时间旅行查询。

📖

術語

Apache Iceberg

用于大型分析数据湖的开源表格式，提供优化的查询性能和无模式破坏的演进。它将规划操作与执行操作分离。

📖

術語

Apache Hudi

数据流处理框架，在数据湖上提供批处理和实时处理能力。它允许增量更新和删除，并具有一致性保证。

📖

術語

Data Virtualization

一种数据集成方法，允许在不物理移动数据源的情况下访问和操作数据。它为分布式数据创建统一和抽象的视图。

📖

術語

Data Fabric

统一的数据管理架构，集成了智能管理功能，便于在任何数据存储位置访问数据。它以无缝方式结合了数据集成、治理和编排。

📖

術語

Zone Medallion

数据湖架构，将数据组织为三个区域：青铜区（原始数据）、白银区（清洗数据）和黄金区（聚合数据）。它逐步构建数据结构以支持分析和决策。

AI 詞彙表

数据湖