AI用語集
人工知能の完全辞典
Apache Hadoop MapReduce
クラスタ上で大規模データセットを処理するための分散プログラミングモデルと実装。処理をMapフェーズとReduceフェーズに分割する。MapReduceは大規模バッチ処理のための最初に普及したフレームワークの一つ。
ETL(抽出・変換・ロード)
異種ソースからデータを抽出し、定義されたビジネスルールに従って変換し、ターゲットシステムにロードするデータ統合プロセス。ETLパイプラインは通常、データ同期のためにバッチで実行される。
ジョブスケジューリング
事前定義されたスケジュール、依存関係、またはイベントトリガーに基づいてバッチ処理タスクを自動的に調整する仕組み。最新のスケジューラは並列化、再試行、実行監視を管理する。
シャッフリング
分散処理におけるグループ化や集計フェーズでクラスタノード間でデータを再分配するコストの高い操作。シャッフリングはMapReduceやSparkジョブにおける主なボトルネックとなることが多い。
HDFS
レプリケーションによる障害耐性を持ち、標準的なマシン上で大規模ファイルを保存するように設計された分散ファイルシステム。HDFSはMapReduceによるバッチ処理に適した高性能なシーケンシャルアクセスを提供する。
YARN
Hadoopエコシステムのリソースオーケストレーターで、分散アプリケーションへのCPU、メモリ、ストレージの割り当てを担当。YARNは同一のHadoopクラスタ上で複数の処理フレームワークの同時実行を可能にする。
Apache Sqoop
Hadoopとリレーショナルデータベース間の双方向データ転送ツールで、並列での大規模インポート/エクスポートに最適化されている。Sqoopはデータを効率的に移動するために必要なMapReduceコードを自動生成する。
Apache Hive
HDFSに保存された大規模データの問い合わせにSQLライクなインターフェース(HQL)を提供する、Hadoop上に構築されたデータウェアハウス基盤。Hiveはクエリをバッチ実行のためのMapReduceジョブに変換する。