分散コンピューティングモデル

📖

用語

MapReduce

クラスタ上で大規模データセットを処理するための並列プログラミングモデル。処理を2つの主要フェーズに分割：Mapでフィルタリングと変換を行い、Reduceで結果を集約する。

📖

用語

Lambda Architecture

完全な分析のためのバッチ処理パスとリアルタイム結果のための高速処理パスを組み合わせたデータ処理アーキテクチャ。両方のビューを統合するためのサービス層を持つ。

📖

用語

Kappa Architecture

Lambdaアーキテクチャを簡素化し、ストリーム処理パイプラインのみを使用。データはリアルタイムで処理され、履歴クエリはイベントの再生によって対応する。

📖

用語

Batch Processing

データを事前に定義された間隔で収集しバッチ処理するモード。レイテンシよりもスループットを最適化し、従来のETL分析に典型的。

📖

用語

Stream Processing

データが生成されると同時に移動中のデータを継続的に処理する方法。キャプチャと処理間の最小レイテンシでリアルタイム分析を可能にする。

📖

用語

Distributed File System

複数のサーバーにデータを保存しながら、ユーザーには単一のシステムとして表示されるファイルシステム。信頼性のためにレプリケーションとフォールトトレランスを確保。

📖

用語

HDFS

Hadoop分散ファイルシステム。標準ハードウェア上でペタバイト規模のデータを保存するように設計された分散ファイルシステム。ブロックのレプリケーションによる高フォールトトレランスを実現。

📖

用語

YARN

Yet Another Resource Negotiator。データ処理とリソース管理を分離するHadoopのリソースマネージャ。同じクラスタ上で複数のフレームワークの実行を可能にする。

📖

用語

RDD

Sparkの基本的なデータ構造で、不変かつ分割されたオブジェクトのコレクションを表し、自動的なフォールトトレランスを備えて並列計算が可能。

📖

用語

Data Locality

分散計算の原則で、必要なデータを含むノード上でタスクを実行し、ネットワーク転送を最小化してパフォーマンスを大幅に向上させる。

📖

用語

Speculative Execution

フォールトトレランスのメカニズムで、遅いタスクのコピーを他のノードで起動し、最初に完了した結果を使用して、障害ノードや過負荷ノードの影響を軽減する。

📖

用語

DAG

有向非巡回グラフ。Sparkのワークフローを表し、変換操作がサイクルのない有向グラフで整理され、ステージの並列実行を最適化する。

📖

用語

Fault Tolerance

分散システムがコンポーネントの障害時に正しく機能し続ける能力。通常、冗長性、レプリケーション、自動回復メカニズムによって実現される。

📖

用語

Consistency Model

分散システムにおけるデータの一貫性保証を定義する契約。アプリケーション要件に応じて、強い一貫性から結果整合性まで範囲がある。

📖

用語

Combiner

MapReduceの最適化関数で、各マッパー上でローカルに実行され、シャッフル中のデータ転送量を削減するために、リデュース段階の前に事前集計を適用する。

AI用語集