AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
列族
列式数据库中相关列的逻辑分组,允许对数据进行分层组织以实现更高效的访问。
个术语
行组
列式格式中的处理单元,包含一组垂直存储的行,优化了I/O操作和压缩。
个术语
列块
包含特定列值的物理数据片段,经过压缩并独立存储,以实现对数据的选择性访问。
个术语
Parquet格式
为分析工作负载优化的开源列式存储格式,使用高效编码和先进的压缩技术。
个术语
ORC格式
为Apache Hive优化的列式格式,提供高压缩比和具有严格数据类型的快速查询性能。
个术语
向量化执行
将操作并行应用于数据批次的处理技术,减少了开销并提高了列式查询的吞吐量。
个术语
谓词下推
将查询过滤器推送到数据源的优化技术,减少了列式系统中读取和处理的数据量。
个术语
列裁剪
消除查询中不需要读取的列的技术,利用列式组织来最小化磁盘访问。
个术语
字典编码
用短标识符替换重复值的压缩方法,特别适用于列式系统中的分类数据。
个术语
区域映射
指示数据段中最小值和最大值的元数据,可在查询时快速排除不相关的数据块。
个术语
增量编码
存储连续值之间的差异而非绝对值的压缩技术,特别适用于有序和时间序列数据。
个术语
游程编码
通过存储值和连续出现次数来压缩相同值序列的编码方法。
个术语
布隆过滤器
概率数据结构,可快速确定某个值是否不在集合中,优化列式系统中的搜索性能。
个术语
跳跃索引
在顺序读取列数据时可直接跳转到相关数据块的元数据,加速数据扫描过程。
个术语
垂直分片
基于列对数据进行物理分区的过程,可在列式集群中实现高效的数据分布和并行处理。
个术语
聚合下推
将聚合计算移至存储层的优化技术,减少列式架构中需要传输的数据量。
🔍