Hadoopエコシステム

📖

用語

HDFS

Hadoopの主要な分散ファイルシステムで、標準的なマシンのクラスター上でペタバイト規模のデータを保存するように設計されており、自動レプリケーションとフォールトトレランスを備えています。

📖

用語

MapReduce

クラスター上の大規模データセットの分散処理のためのプログラミングパラダイムと実装で、タスクをマッピングフェーズとリダクションフェーズに分割します。

📖

用語

YARN

Hadoopのリソースマネージャーで、クラスター内のアプリケーションへのCPUおよびメモリリソースの割り当てを調整し、タスクのライフサイクルを管理します。

📖

用語

HBase

HDFS上に構築された分散型のカラム指向の非リレーショナルNoSQLデータベースで、強力な一貫性を備えた大規模データへのリアルタイムアクセスを提供します。

📖

用語

Hive

Hadoop上のデータウェアハウスインフラストラクチャで、SQLに似た言語（HiveQL）を使用して大規模データセットをクエリし、実行にはMapReduceを使用します。

📖

用語

Pig

高レベルデータ分析プラットフォームで、Pig Latin言語を使用して複雑なデータ変換プログラムを表現し、Hadoop上で実行します。

📖

用語

Spark

ビッグデータ向けの超高速統一処理エンジンで、Scala、Java、Python、RのAPIを提供し、SQL、ストリーミング、機械学習、グラフ処理をサポートします。

📖

用語

ZooKeeper

集中型の分散調整サービスで、構成情報、ネーミング、分散同期、およびサービスグループの管理を維持します。

📖

用語

Flume

エージェントベースのアーキテクチャを持つ、分散型で信頼性が高く可用性のあるサービス。大量のストリーミングデータを収集、集約し、HDFSに移動する。

📖

用語

Sqoop

Hadoopとリレーショナルデータベースなどの構造化データベース間で、効率的に大量のデータを転送するために設計されたツール。

📖

用語

Oozie

時間的および条件的な依存関係を持つ複雑なHadoopデータ処理パイプラインを管理・実行するためのワークフローおよびコーディネーターシステム。

📖

用語

Mahout

大規模データセットの処理のためにHadoop MapReduce上に実装された、分散機械学習およびデータマイニングアルゴリズムのライブラリ。

📖

用語

Ambari

Hadoopクラスターの管理および監視プラットフォーム。完全なHadoopエコシステムのプロビジョニング、管理、監視のためのWebインターフェースを提供する。

📖

用語

HCatalog

Hadoopエコシステムのためのメタデータおよびテーブル管理サービス。Pig、Hive、MapReduceなどのツールに対してデータの統一ビューを提供する。

📖

用語

Avro

スキーマ進化を備えたデータシリアライゼーションシステム。Hadoopサービス間のデータ交換のためのコンパクトで高速なデータフォーマットを提供する。

📖

用語

Parquet

Hadoop上の分析クエリのパフォーマンスに最適化されたカラムナーファイル形式。効率的な圧縮と複雑な型のサポートを備える。

📖

用語

Impala

HDFSとHBaseに保存されたデータに対して低遅延の対話型クエリ性能を提供する、Hadoop用の超並列SQLクエリエンジン。

📖

用語

Tez

Hadoop YARN用の汎用非循環データ実行フレームワークで、不要なMapReduceフェーズを排除することで複雑な処理の性能を最適化する。

📖

用語

Storm

Hadoop用の分散リアルタイムストリーム処理システムで、ミリ秒レベルの遅延で大量のデータを処理可能。

📖

用語

Kafka

Hadoopエコシステム内でリアルタイムデータストリームの収集と処理のための高性能・高可用性の分散メッセージングプラットフォーム。

AI用語集