分布式查询引擎 - AI 詞彙表

📖

術語

Apache Spark SQL

Spark模块，提供SQL和DataFrame接口，通过Catalyst优化和Tungsten执行来运行分布式查询，以提高性能。

📖

術語

Presto

开源分布式SQL查询引擎，专为在各种数据源上进行大规模交互式数据分析而设计，无需移动数据。

📖

術語

Apache Drill

分布式无模式查询引擎，允许对NoSQL数据和结构化文件进行SQL分析，无需预定义模式，支持原生JSON。

📖

術語

HiveQL

类似于SQL的查询语言，用于Apache Hive，将查询转换为MapReduce或Tez作业，以在Hadoop中进行分布式数据分析。

📖

術語

Apache Impala

用于Hadoop的大规模并行SQL查询引擎，通过绕过MapReduce的本机架构提供低延迟分析，直接访问数据。

📖

術語

Trino

高性能分布式SQL查询引擎，前身为PrestoSQL，针对跨多个数据源的联邦数据分析进行了优化，具有并行执行能力。

📖

術語

基于成本的优化

使用关于数据量和分布的统计信息来评估和选择最有效执行计划的优化策略。

📖

術語

Apache Calcite

动态数据管理框架，为许多分布式数据库引擎提供SQL解析、验证、优化和查询执行功能。

📖

術語

向量化查询执行

一种通过批量处理数据而非逐行处理来执行查询的技术，提高了CPU缓存的利用率和性能。

📖

術語

分布式连接

在多个节点上分布的数据连接操作，需要分区和洗牌策略来有效组合分布式数据集。

📖

術語

自适应查询执行

一种动态优化方法，根据执行期间收集的统计信息实时调整执行计划，以提高性能。

AI 詞彙表