🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

数据湖

集中式存储库,旨在以原始格式存储大量数据。它允许在PB级别存储结构化、半结构化和非结构化数据。

📖
術語

数据沼泽

失去治理和组织的数据湖,使得数据难以访问和使用。这是由于缺乏元数据管理和适当文档造成的。

📖
術語

数据湖仓

结合数据湖和数据仓库优势的混合架构,提供统一的数据管理。它允许直接分析存储在开放且性能优化的格式中的数据。

📖
術語

数据摄取

从各种来源收集和传输数据到集中存储系统(如数据湖)的过程。可以根据业务需求通过实时、批处理或流式处理实现。

📖
術語

读时模式

在读取时而非写入时应用数据结构的方​​法。它提供了最大的灵活性来存储异构数据,无需预先定义模式。

📖
術語

写时模式

传统方法,在将数据写入系统之前必须定义数据模式。它保证了数据的质量和一致性,但降低了存储的灵活性。

📖
術語

数据目录

组织和索引的元数据,描述数据湖中可用的数据。它通过集中式界面促进数据的发现、理解和治理。

📖
術語

数据治理

定义组织内数据管理的一套政策、流程和标准。它确保数据湖中数据的质量、安全性、合规性和适当使用。

📖
術語

数据分区

基于特定标准(如日期或类别)将数据划分为更小段的技术。通过限制只读取相关分区来优化查询性能。

📖
術語

数据分片

将数据水平分区并分布在多个服务器上,以提高可扩展性和性能。每个分片包含总数据的唯一子集。

📖
術語

数据复制

将数据从一个位置复制到另一个位置的过程,以确保高可用性和容错性。根据一致性要求可以是同步或异步的。

📖
術語

数据版本控制

在数据湖中跟踪和管理数据随时间变化的机制。它便于审计、错误恢复和时间趋势分析。

📖
術語

数据血缘

数据从源头到最终目的地的完整生命周期可追溯性。它记录了不同数据实体之间的转换、移动和关系。

📖
術語

数据网格

将数据作为分布式产品处理的去中心化数据管理架构。通过促进功能领域的自主性来消除中心团队的瓶颈。

📖
術語

Delta Lake

为构建在分布式文件系统上的数据湖带来ACID事务的开源存储层。它允许对parquet数据进行更新、删除和时间旅行查询。

📖
術語

Apache Iceberg

用于大型分析数据湖的开源表格式,提供优化的查询性能和无模式破坏的演进。它将规划操作与执行操作分离。

📖
術語

Apache Hudi

数据流处理框架,在数据湖上提供批处理和实时处理能力。它允许增量更新和删除,并具有一致性保证。

📖
術語

Data Virtualization

一种数据集成方法,允许在不物理移动数据源的情况下访问和操作数据。它为分布式数据创建统一和抽象的视图。

📖
術語

Data Fabric

统一的数据管理架构,集成了智能管理功能,便于在任何数据存储位置访问数据。它以无缝方式结合了数据集成、治理和编排。

📖
術語

Zone Medallion

数据湖架构,将数据组织为三个区域:青铜区(原始数据)、白银区(清洗数据)和黄金区(聚合数据)。它逐步构建数据结构以支持分析和决策。

🔍

搵唔到結果