AI用語集
人工知能の完全辞典
Apache Spark SQL
Sparkのモジュールで、SQLインターフェースとDataFrameを提供し、Catalyst最適化とTungsten実行による分散クエリを実行し、パフォーマンスを向上させる。
Presto
オープンソースの分散SQLクエリエンジンで、データ移動なしに様々なソース上の大規模データの対話的分析のために設計されている。
Apache Drill
スキーマレス分散クエリエンジンで、事前定義スキーマなしでNoSQLデータや構造化ファイルのSQL分析を可能にし、ネイティブJSONサポートを提供する。
HiveQL
Apache Hive用のSQL類似クエリ言語で、クエリをMapReduceまたはTezジョブに変換し、Hadoop内の分散データ分析を行う。
Apache Impala
Hadoop用の大規模並列SQLクエリエンジンで、MapReduceを回避するネイティブアーキテクチャにより低遅延分析を提供し、データへの直接アクセスを実現する。
Trino
分散SQLクエリエンジン(旧PrestoSQL)、複数ソースにわたる連携データ分析に最適化され、並列実行を特徴とする高性能エンジン。
コストベース最適化
データ量と分布に関する統計情報を使用して実行計画を評価・選択する最適化戦略で、最も効率的な実行計画を選定する。
Apache Calcite
動的データ管理フレームワークで、SQL解析、検証、最適化、クエリ実行を提供し、多数の分散データベースエンジンをサポートする。
ベクトル化クエリ実行
データを行ごとではなくバッチ(一括)で処理するクエリ実行技術。CPUキャッシュの利用効率とパフォーマンスを向上させる。
分散結合
複数ノードに分散されたデータの結合操作。分散データセットを効率的に結合するために、パーティショニングとシャッフルの戦略が必要。
適応的クエリ実行
実行中に収集された統計情報に基づいて実行プランをリアルタイムで動的に調整する最適化手法。パフォーマンス向上を目的とする。