AI用語集
人工知能の完全辞典
HDFS
Hadoopの主要な分散ファイルシステムで、標準的なマシンのクラスター上でペタバイト規模のデータを保存するように設計されており、自動レプリケーションとフォールトトレランスを備えています。
MapReduce
クラスター上の大規模データセットの分散処理のためのプログラミングパラダイムと実装で、タスクをマッピングフェーズとリダクションフェーズに分割します。
YARN
Hadoopのリソースマネージャーで、クラスター内のアプリケーションへのCPUおよびメモリリソースの割り当てを調整し、タスクのライフサイクルを管理します。
HBase
HDFS上に構築された分散型のカラム指向の非リレーショナルNoSQLデータベースで、強力な一貫性を備えた大規模データへのリアルタイムアクセスを提供します。
Hive
Hadoop上のデータウェアハウスインフラストラクチャで、SQLに似た言語(HiveQL)を使用して大規模データセットをクエリし、実行にはMapReduceを使用します。
Pig
高レベルデータ分析プラットフォームで、Pig Latin言語を使用して複雑なデータ変換プログラムを表現し、Hadoop上で実行します。
Spark
ビッグデータ向けの超高速統一処理エンジンで、Scala、Java、Python、RのAPIを提供し、SQL、ストリーミング、機械学習、グラフ処理をサポートします。
ZooKeeper
集中型の分散調整サービスで、構成情報、ネーミング、分散同期、およびサービスグループの管理を維持します。
Flume
エージェントベースのアーキテクチャを持つ、分散型で信頼性が高く可用性のあるサービス。大量のストリーミングデータを収集、集約し、HDFSに移動する。
Sqoop
Hadoopとリレーショナルデータベースなどの構造化データベース間で、効率的に大量のデータを転送するために設計されたツール。
Oozie
時間的および条件的な依存関係を持つ複雑なHadoopデータ処理パイプラインを管理・実行するためのワークフローおよびコーディネーターシステム。
Mahout
大規模データセットの処理のためにHadoop MapReduce上に実装された、分散機械学習およびデータマイニングアルゴリズムのライブラリ。
Ambari
Hadoopクラスターの管理および監視プラットフォーム。完全なHadoopエコシステムのプロビジョニング、管理、監視のためのWebインターフェースを提供する。
HCatalog
Hadoopエコシステムのためのメタデータおよびテーブル管理サービス。Pig、Hive、MapReduceなどのツールに対してデータの統一ビューを提供する。
Avro
スキーマ進化を備えたデータシリアライゼーションシステム。Hadoopサービス間のデータ交換のためのコンパクトで高速なデータフォーマットを提供する。
Parquet
Hadoop上の分析クエリのパフォーマンスに最適化されたカラムナーファイル形式。効率的な圧縮と複雑な型のサポートを備える。
Impala
HDFSとHBaseに保存されたデータに対して低遅延の対話型クエリ性能を提供する、Hadoop用の超並列SQLクエリエンジン。
Tez
Hadoop YARN用の汎用非循環データ実行フレームワークで、不要なMapReduceフェーズを排除することで複雑な処理の性能を最適化する。
Storm
Hadoop用の分散リアルタイムストリーム処理システムで、ミリ秒レベルの遅延で大量のデータを処理可能。
Kafka
Hadoopエコシステム内でリアルタイムデータストリームの収集と処理のための高性能・高可用性の分散メッセージングプラットフォーム。