AI 詞彙表
人工智能完整詞典
数据湖
集中式存储库,旨在以原始格式存储大量数据。它允许在PB级别存储结构化、半结构化和非结构化数据。
数据沼泽
失去治理和组织的数据湖,使得数据难以访问和使用。这是由于缺乏元数据管理和适当文档造成的。
数据湖仓
结合数据湖和数据仓库优势的混合架构,提供统一的数据管理。它允许直接分析存储在开放且性能优化的格式中的数据。
数据摄取
从各种来源收集和传输数据到集中存储系统(如数据湖)的过程。可以根据业务需求通过实时、批处理或流式处理实现。
读时模式
在读取时而非写入时应用数据结构的方法。它提供了最大的灵活性来存储异构数据,无需预先定义模式。
写时模式
传统方法,在将数据写入系统之前必须定义数据模式。它保证了数据的质量和一致性,但降低了存储的灵活性。
数据目录
组织和索引的元数据,描述数据湖中可用的数据。它通过集中式界面促进数据的发现、理解和治理。
数据治理
定义组织内数据管理的一套政策、流程和标准。它确保数据湖中数据的质量、安全性、合规性和适当使用。
数据分区
基于特定标准(如日期或类别)将数据划分为更小段的技术。通过限制只读取相关分区来优化查询性能。
数据分片
将数据水平分区并分布在多个服务器上,以提高可扩展性和性能。每个分片包含总数据的唯一子集。
数据复制
将数据从一个位置复制到另一个位置的过程,以确保高可用性和容错性。根据一致性要求可以是同步或异步的。
数据版本控制
在数据湖中跟踪和管理数据随时间变化的机制。它便于审计、错误恢复和时间趋势分析。
数据血缘
数据从源头到最终目的地的完整生命周期可追溯性。它记录了不同数据实体之间的转换、移动和关系。
数据网格
将数据作为分布式产品处理的去中心化数据管理架构。通过促进功能领域的自主性来消除中心团队的瓶颈。
Delta Lake
为构建在分布式文件系统上的数据湖带来ACID事务的开源存储层。它允许对parquet数据进行更新、删除和时间旅行查询。
Apache Iceberg
用于大型分析数据湖的开源表格式,提供优化的查询性能和无模式破坏的演进。它将规划操作与执行操作分离。
Apache Hudi
数据流处理框架,在数据湖上提供批处理和实时处理能力。它允许增量更新和删除,并具有一致性保证。
Data Virtualization
一种数据集成方法,允许在不物理移动数据源的情况下访问和操作数据。它为分布式数据创建统一和抽象的视图。
Data Fabric
统一的数据管理架构,集成了智能管理功能,便于在任何数据存储位置访问数据。它以无缝方式结合了数据集成、治理和编排。
Zone Medallion
数据湖架构,将数据组织为三个区域:青铜区(原始数据)、白银区(清洗数据)和黄金区(聚合数据)。它逐步构建数据结构以支持分析和决策。