AI 词汇表
人工智能完整词典
数据仓库
为分析和决策优化的集中式数据存储库,从多个来源收集运营数据和历史数据。旨在支持对海量结构化数据的复杂分析查询。
数据集市
数据仓库的子集,专注于特定的业务领域或部门。便于访问相关数据进行针对性分析,同时降低查询复杂性。
ETL(提取、转换、加载)
数据集成过程,从异构源提取信息,根据业务规则进行转换,然后加载到数据仓库中。确保数据分析前的数据质量和一致性。
ELT(提取、加载、转换)
现代数据集成方法,原始数据首先加载到目标系统中,然后在原地进行转换。在云平台和分布式架构上优化性能。
OLAP(联机分析处理)
多维分析技术,支持对大量历史数据的复杂查询。支持下钻、上卷、切片和切块操作以进行数据探索。
OLTP(联机事务处理)
实时事务管理系统,为CRUD操作(创建、读取、更新、删除)优化。设计用于处理大量短小原子事务,具有高并发性。
星型模式
数据仓库的数据建模方式,具有中心事实表,周围环绕着非规范化的维度表。通过最小化连接来优化分析查询性能。
雪花模式
星型模式的变体,其中维度表被规范化为多个表的层次结构。减少数据冗余但增加了分析查询的复杂性。
事实表
维度模型中的核心表,包含数值度量和指向维度的外键。存储定量业务事实,如销售额、交易量或绩效指标。
维度表
描述事实表中度量上下文的表,包含定性描述属性。允许按不同维度(如时间、地理或产品)分析数据。
数据仓库
结合3NF和星型模式优势的混合建模方法,用于可扩展的数据仓库。分离中心表、链接表和卫星表,确保可审计性和可扩展性。
列式数据库
按列而非按行存储数据的数据库,优化了对列子集的查询分析。显著减少了BI工作负载的响应时间和存储空间。
内存数据库
主要在RAM中存储数据的数据库系统,实现近乎即时的访问性能。大幅加速复杂分析和数据仓库的交互式报表。
分布式查询处理
在多个计算节点上并行执行查询以处理海量数据的技术。将处理分解为分布式任务,以优化资源利用并减少响应时间。
数据联邦
虚拟集成方法,提供来自异构数据源的统一视图而无需物理复制。允许在分布式系统上进行实时分析,同时保留源数据。
聚合表
预计算表,包含不同粒度级别的汇总数据,用于加速重复查询。是针对大量数据的BI报表性能优化的关键策略。
缓慢变化维度 (SCD)
用于管理维度表中变更的技术,以跟踪属性的历史演变。根据数据时间可追溯性需求实施不同策略(类型1、2、3)。
数据管道
自动化的处理流程链,从源头捕获、转换数据并将其交付到最终目的地。编排连续的数据流,为分析系统和商业智能应用提供数据支持。