AI 詞彙表
人工智能完整詞典
200
類別
2,608
子類別
30,011
術語
術語
可扩展数据管道
旨在通过弹性资源和分布式处理,自动管理数据量和工作负载增长的数据流架构。
術語
变更数据捕获 (CDC)
一种识别和选择性捕获源系统中数据变更的技术,旨在最小化带宽并优化实时同步。
術語
数据编排
复杂数据集成工作流的自动化协调,包括依赖管理、并行执行、监控和错误恢复。
術語
数据虚拟化层
一种抽象层,允许实时访问和组合异构数据而无需物理复制,从而创建分布式源的统一虚拟视图。
術語
增量加载
一种优化的加载策略,仅处理自上次运行以来新增或修改的数据,显著减少处理时间并降低对源系统的影响。
術語
数据质量框架
一套结构化的规则、指标和流程,用于在整个数据集成管道中验证、清理和监控数据质量。
術語
列式存储格式
一种面向列的存储格式,针对大数据量分析查询进行了优化,可实现高效压缩和仅选择所需列的读取。
術語
分区策略
一种基于时间、地理或业务标准对大型数据集进行逻辑划分的技术,旨在加速查询并优化并行处理。
術語
数据血缘追踪
自动化追溯系统,记录数据在整个数据管道中的来源、转换和目的地,以实现可审计性和数据治理。
術語
元数据存储库
集中存储关于数据模式、格式、来源和转换的描述性信息,以便促进ETL/ELT流程的发现和自动化。
術語
分布式数据处理
一种在节点集群上并行处理海量数据的分布式计算范式,确保横向扩展性和容错性。
術語
数据脱敏管道
专门用于在数据集成过程中对敏感数据进行匿名化的转换流程,同时保留数据结构和统计分布,并确保符合GDPR规定。
術語
混合ETL架构
批处理和流处理的战略性组合,根据数据特性和业务对数据新鲜度的要求来优化性能。
術語
数据治理层
一套集成到ETL/ELT管道中的政策、控制和机制,以确保数据的法规遵从性、安全性和质量。
術語
自动调优管道
一种利用机器学习,根据负载模式动态调整资源、分区和并行度的自优化数据集成管道。
🔍