AI用語集
人工知能の完全辞典
MapReduce
クラスタ上で大規模データセットを処理するための並列プログラミングモデル。処理を2つの主要フェーズに分割:Mapでフィルタリングと変換を行い、Reduceで結果を集約する。
Lambda Architecture
完全な分析のためのバッチ処理パスとリアルタイム結果のための高速処理パスを組み合わせたデータ処理アーキテクチャ。両方のビューを統合するためのサービス層を持つ。
Kappa Architecture
Lambdaアーキテクチャを簡素化し、ストリーム処理パイプラインのみを使用。データはリアルタイムで処理され、履歴クエリはイベントの再生によって対応する。
Batch Processing
データを事前に定義された間隔で収集しバッチ処理するモード。レイテンシよりもスループットを最適化し、従来のETL分析に典型的。
Stream Processing
データが生成されると同時に移動中のデータを継続的に処理する方法。キャプチャと処理間の最小レイテンシでリアルタイム分析を可能にする。
Distributed File System
複数のサーバーにデータを保存しながら、ユーザーには単一のシステムとして表示されるファイルシステム。信頼性のためにレプリケーションとフォールトトレランスを確保。
HDFS
Hadoop分散ファイルシステム。標準ハードウェア上でペタバイト規模のデータを保存するように設計された分散ファイルシステム。ブロックのレプリケーションによる高フォールトトレランスを実現。
YARN
Yet Another Resource Negotiator。データ処理とリソース管理を分離するHadoopのリソースマネージャ。同じクラスタ上で複数のフレームワークの実行を可能にする。
RDD
Sparkの基本的なデータ構造で、不変かつ分割されたオブジェクトのコレクションを表し、自動的なフォールトトレランスを備えて並列計算が可能。
Data Locality
分散計算の原則で、必要なデータを含むノード上でタスクを実行し、ネットワーク転送を最小化してパフォーマンスを大幅に向上させる。
Speculative Execution
フォールトトレランスのメカニズムで、遅いタスクのコピーを他のノードで起動し、最初に完了した結果を使用して、障害ノードや過負荷ノードの影響を軽減する。
DAG
有向非巡回グラフ。Sparkのワークフローを表し、変換操作がサイクルのない有向グラフで整理され、ステージの並列実行を最適化する。
Fault Tolerance
分散システムがコンポーネントの障害時に正しく機能し続ける能力。通常、冗長性、レプリケーション、自動回復メカニズムによって実現される。
Consistency Model
分散システムにおけるデータの一貫性保証を定義する契約。アプリケーション要件に応じて、強い一貫性から結果整合性まで範囲がある。
Combiner
MapReduceの最適化関数で、各マッパー上でローカルに実行され、シャッフル中のデータ転送量を削減するために、リデュース段階の前に事前集計を適用する。