AI 詞彙表
人工智能完整詞典
B树索引
一种自平衡的分层索引结构,针对范围搜索和等值查询进行了优化。通过在插入和删除时保持树的平衡,实现对数据的对数时间复杂度 O(log n) 访问。
水平分区
一种数据分布技术,根据行分配标准将一个表分成多个物理分区。通过只扫描相关分区,可以并行化查询并提高性能。
垂直分区
一种将表列分离成多个物理分区的策略,以优化对常用属性的访问。通过在执行查询时只加载必要的列,减少I/O。
位图索引
一种使用位图表示低基数列中值存在的索引结构。通过执行快速的位操作,优化包含多个AND/OR条件的复杂查询。
物化视图
一个复杂查询结果的持久化预计算,物理存储以加速对聚合数据的访问。根据定义的刷新策略(完全、增量或快速)进行自动化或手动维护。
执行计划优化
数据库管理系统通过评估多种访问计划来确定执行查询最有效策略的过程。利用统计数据和启发式方法来最小化操作的整体计算成本。
谓词下推
一种优化技术,将过滤器尽可能地推近数据源,以减少传输的数据量。在执行管道中尽早应用谓词,以最小化对不相关数据的处理。
列式存储
一种按列而非按行组织数据的存储架构,用于优化分析查询。在访问列子集时,实现高压缩率和快速顺序读取。
数据倾斜管理
通过均衡数据分布技术,避免因分区不均而造成的性能瓶颈。采用自适应分区策略和动态重新分配,以维持最佳性能。
连接操作优化
通过选择合适的算法(如哈希连接、合并连接、嵌套循环连接)来最小化连接操作的成本。根据数据大小和分布,优化连接顺序和广播/混洗技术。
复合索引
一种多列索引结构,旨在加速同时过滤多个属性的查询。索引中列的顺序对于前缀和范围搜索的效率至关重要。
范围分区
一种基于预定义值区间(如日期或数字ID等连续列)来划分表的方法。它便于历史数据的归档和清除,同时优化时间相关的查询。
哈希分区
一种使用哈希函数将记录均匀分布到不同分区的数据分布技术。它确保了键值模式和随机数据访问的均衡分布。
布隆过滤器
一种紧凑的概率数据结构,能够快速测试一个元素是否不在集合中,且没有假阴性。在分布式系统中用于避免连接操作期间不必要的数据传输。
查询缓存
一种临时存储频繁执行查询结果的机制,以避免昂贵的重复计算。它实现了基于源数据修改的失效策略和LRU/LFU淘汰策略。
查询并行执行
一种分布式处理技术,将查询分解为在多个节点或核心上同时执行的并行任务。它利用查询内部并行(管道、分区)和查询间并行来最大化系统吞吐量。
基于成本的优化
一种查询优化方法,它评估每个潜在执行计划的CPU、I/O和网络成本。利用详细的数据统计信息和系统资源信息来选择全局最优策略。
统计信息收集
定期分析数据以生成关于分布、基数和相关性的度量指标的过程。对于查询优化器估算谓词选择性和操作成本至关重要。
GiST 索引
一种可扩展的通用索引框架,支持不同数据类型和比较运算符。在现代数据库系统中,对于空间、文本和层次结构索引特别有效。
空间索引
专门用于几何查询的优化技术,使用R树或四叉树等结构。加速多维地理空间数据上的邻近、交集和包含操作。