データレイク

📖

用語

大量の生データをネイティブ形式で格納するために設計された集中型ストレージリポジトリ。構造化データ、半構造化データ、非構造化データをペタバイト規模で保存することが可能。

📖

用語

データスワンプ

ガバナンスと組織化が失われ、データへのアクセスと利用が困難になったデータレイク。メタデータ管理と適切な文書化の不足から生じる。

📖

用語

データレイクハウス

データレイクとデータウェアハウスの利点を組み合わせたハイブリッドアーキテクチャ。オープンでパフォーマンス最適化された形式で保存されたデータに対して直接分析を可能にする統合データ管理を提供。

📖

用語

データインジェスション

様々なソースからデータレイクなどの集中ストレージシステムへデータを収集・転送するプロセス。ビジネスニーズに応じてリアルタイム、バッチ、ストリーミングで実行可能。

📖

用語

スキーマオンレッド

データ構造を書き込み時ではなく読み取り時に適用するアプローチ。事前にスキーマを定義せずに異種データを保存するための最大限の柔軟性を提供。

📖

用語

スキーマオンライト

データをシステムに書き込む前にスキーマを定義する必要がある従来の方法論。データの品質と一貫性を保証するが、ストレージの柔軟性は低下させる。

📖

用語

データカタログ

データレイク内で利用可能なデータを記述する、整理・索引付けされたメタデータ。中央インターフェースを通じてデータの発見、理解、ガバナンスを容易にする。

📖

用語

データガバナンス

組織内でのデータ管理を定義する一連のポリシー、手順、標準。データレイクのデータの品質、セキュリティ、コンプライアンス、適切な利用を保証する。

📖

用語

データパーティショニング

日付やカテゴリなどの特定の基準に基づいてデータをより小さなセグメントに分割する技術。関連するパーティションのみを読み込むことでクエリのパフォーマンスを最適化する。

📖

用語

データシャーディング

スケーラビリティとパフォーマンスを向上させるために、分散データを複数のサーバーに水平分割すること。各シャードには全データの一意のサブセットが含まれる。

📖

用語

データレプリケーション

高可用性と障害耐性を確保するために、データをある場所から別の場所にコピーするプロセス。一貫性の要件に応じて、同期または非同期で行われる。

📖

用語

データバージョニング

データレイク内で時間の経過に伴うデータの変更を追跡・管理するメカニズム。監査、エラー回復、時系列トレンド分析を容易にする。

📖

用語

データラインジ

データのソースから最終的な宛先までの完全なライフサイクルの追跡可能性。変換、移動、およびさまざまなデータエンティティ間の関係を文書化する。

📖

用語

データメッシュ

データを分散製品として扱う分散型データ管理アーキテクチャ。機能ドメインの自律性を促進することで、中央チームのボトルネックを排除する。

📖

用語

デルタレイク

分散ファイルシステム上に構築されたデータレイクにACIDトランザクションをもたらすオープンソースのストレージレイヤー。Parquetデータに対する更新、削除、およびタイムトラベルクエリを可能にする。

📖

用語

Apache Iceberg

大規模で分析的なデータレイクのためのオープンソースのテーブル形式で、最適なクエリパフォーマンスと破壊的でないスキーマ進化を提供する。計画操作と実行操作を分離する。

📖

用語

Apache Hudi

データレイク上でバッチ処理とリアルタイム処理の機能を提供するデータストリーミングフレームワーク。一貫性を保証しながら増分更新と削除を可能にします。

📖

用語

Data Virtualization

データを物理的に移動させることなく、そのソースからデータにアクセスし操作することを可能にするデータ統合アプローチ。分散データの統合された抽象的なビューを作成します。

📖

用語

Data Fabric

データが存在する場所に関わらずデータアクセスを容易にする、統合されたインテリジェントなデータ管理アーキテクチャ。データ統合、ガバナンス、オーケストレーションをシームレスに組み合わせます。

📖

用語

Zone Medallion

データをブロンズ（生データ）、シルバー（クレンジング済み）、ゴールド（集約済み）の3つのゾーンに整理するデータレイクアーキテクチャ。分析と意思決定のためにデータを段階的に構造化します。

AI用語集