AI用語集
人工知能の完全辞典
カラムファミリー
カラム指向データベースにおける関連カラムの論理的なグループ化。データの階層的組織化により、効率的なアクセスを可能にする。
行グループ
カラム指向フォーマットにおける処理単位で、垂直に格納された行の集合を含む。I/O操作と圧縮を最適化する。
カラムチャンク
特定のカラムの値を含む物理的なデータ断片。圧縮され独立して格納され、選択的なデータアクセスを可能にする。
Parquetフォーマット
アナリティカルワークロードに最適化されたオープンソースのカラム指向ストレージフォーマット。効率的なエンコーディングと高度な圧縮技術を使用。
ORCフォーマット
Apache Hive向けに最適化されたカラム指向フォーマット。高圧縮率と厳格なデータ型付けによる高速なクエリ性能を提供。
ベクトル化実行
データのバッチに対して並列に操作を適用する処理技術。オーバーヘッドを削減し、カラム指向クエリのスループットを向上させる。
述語プッシュダウン
クエリのフィルタをデータソース側に押し下げる最適化。カラム指向システムで読み取り・処理されるデータ量を削減する。
カラム剪定
クエリで不要なカラムの読み取りを排除する技術。カラム指向の組織を活用してディスクアクセスを最小化する。
辞書エンコーディング
繰り返し値を短い識別子で置き換える圧縮方法で、カラムナシステムのカテゴリカルデータに特に効果的
ゾーンマップ
データセグメント内の最小値と最大値を示すメタデータで、クエリ時に無関係なブロックを迅速に除外可能
デルタエンコーディング
絶対値ではなく連続する値間の差分を保存する圧縮技術で、順序付けられた時系列データに最適
RLEエンコーディング
同一値の連続シーケンスを値と連続出現回数で保存するランレングスエンコーディング圧縮
ブルームフィルター
集合内の値の不在を迅速に判定する確率的データ構造で、カラムナシステムの検索を最適化
スキップインデックス
カラムのシーケンシャル読み取り時に関連データブロックへ直接ジャンプ可能にするメタデータで、データスキャンを高速化
垂直セグメンテーション
カラムベースでデータを物理的に分割するプロセスで、カラムナクラスターにおける効率的な分散と並列処理を実現
プッシュダウン集約
集約計算をストレージ層に移動させる最適化で、カラムナアーキテクチャにおける転送データ量を削減