AI用語集
人工知能の完全辞典
データレイク
大量の生データをネイティブ形式で格納するために設計された集中型ストレージリポジトリ。構造化データ、半構造化データ、非構造化データをペタバイト規模で保存することが可能。
データスワンプ
ガバナンスと組織化が失われ、データへのアクセスと利用が困難になったデータレイク。メタデータ管理と適切な文書化の不足から生じる。
データレイクハウス
データレイクとデータウェアハウスの利点を組み合わせたハイブリッドアーキテクチャ。オープンでパフォーマンス最適化された形式で保存されたデータに対して直接分析を可能にする統合データ管理を提供。
データインジェスション
様々なソースからデータレイクなどの集中ストレージシステムへデータを収集・転送するプロセス。ビジネスニーズに応じてリアルタイム、バッチ、ストリーミングで実行可能。
スキーマオンレッド
データ構造を書き込み時ではなく読み取り時に適用するアプローチ。事前にスキーマを定義せずに異種データを保存するための最大限の柔軟性を提供。
スキーマオンライト
データをシステムに書き込む前にスキーマを定義する必要がある従来の方法論。データの品質と一貫性を保証するが、ストレージの柔軟性は低下させる。
データカタログ
データレイク内で利用可能なデータを記述する、整理・索引付けされたメタデータ。中央インターフェースを通じてデータの発見、理解、ガバナンスを容易にする。
データガバナンス
組織内でのデータ管理を定義する一連のポリシー、手順、標準。データレイクのデータの品質、セキュリティ、コンプライアンス、適切な利用を保証する。
データパーティショニング
日付やカテゴリなどの特定の基準に基づいてデータをより小さなセグメントに分割する技術。関連するパーティションのみを読み込むことでクエリのパフォーマンスを最適化する。
データシャーディング
スケーラビリティとパフォーマンスを向上させるために、分散データを複数のサーバーに水平分割すること。各シャードには全データの一意のサブセットが含まれる。
データレプリケーション
高可用性と障害耐性を確保するために、データをある場所から別の場所にコピーするプロセス。一貫性の要件に応じて、同期または非同期で行われる。
データバージョニング
データレイク内で時間の経過に伴うデータの変更を追跡・管理するメカニズム。監査、エラー回復、時系列トレンド分析を容易にする。
データラインジ
データのソースから最終的な宛先までの完全なライフサイクルの追跡可能性。変換、移動、およびさまざまなデータエンティティ間の関係を文書化する。
データメッシュ
データを分散製品として扱う分散型データ管理アーキテクチャ。機能ドメインの自律性を促進することで、中央チームのボトルネックを排除する。
デルタレイク
分散ファイルシステム上に構築されたデータレイクにACIDトランザクションをもたらすオープンソースのストレージレイヤー。Parquetデータに対する更新、削除、およびタイムトラベルクエリを可能にする。
Apache Iceberg
大規模で分析的なデータレイクのためのオープンソースのテーブル形式で、最適なクエリパフォーマンスと破壊的でないスキーマ進化を提供する。計画操作と実行操作を分離する。
Apache Hudi
データレイク上でバッチ処理とリアルタイム処理の機能を提供するデータストリーミングフレームワーク。一貫性を保証しながら増分更新と削除を可能にします。
Data Virtualization
データを物理的に移動させることなく、そのソースからデータにアクセスし操作することを可能にするデータ統合アプローチ。分散データの統合された抽象的なビューを作成します。
Data Fabric
データが存在する場所に関わらずデータアクセスを容易にする、統合されたインテリジェントなデータ管理アーキテクチャ。データ統合、ガバナンス、オーケストレーションをシームレスに組み合わせます。
Zone Medallion
データをブロンズ(生データ)、シルバー(クレンジング済み)、ゴールド(集約済み)の3つのゾーンに整理するデータレイクアーキテクチャ。分析と意思決定のためにデータを段階的に構造化します。