Apache Spark

📖

用語

インメモリ分散処理のオープンソースフレームワークで、最適化された並列実行によりビッグデータ分析を高速化するように設計されています。

📖

用語

RDD (Resilient Distributed Dataset)

Sparkの基本的なデータ構造で、不変かつ分割された構造を持ち、失われたデータの再構築によるフォールトトレランスを実現します。

📖

用語

DataFrame

名前付き列で整理された分散データコレクションで、データベースのテーブルに似ており、構造化クエリに最適化されています。

📖

用語

Spark SQL

SQLクエリとDataFrame操作を統合するSparkモジュールで、Catalyst Optimizerによる自動最適化を提供します。

📖

用語

Spark Streaming

マイクロバッチを使用したリアルタイムデータストリーム処理を可能にするSpark拡張機能で、準リアルタイムの遅延を実現します。

📖

用語

MLlib

Sparkの分散機械学習ライブラリで、分類、回帰、クラスタリング、レコメンデーションのアルゴリズムを提供します。

📖

用語

GraphX

分散グラフ処理のためのSpark APIで、グラフの利点とRDDのパフォーマンスを組み合わせています。

📖

用語

DAG (Directed Acyclic Graph)

Spark変換の実行計画を表す有向非巡回グラフで、冗長性の排除と処理の並列化のために最適化されています。

📖

用語

Spark Driver

Sparkタスクの実行を調整する主要プロセス。SparkContextを作成し、操作をステージに分割する。

📖

用語

Spark Executor

クラスタの各ノードでDriverから割り当てられたタスクを実行するワーカープロセス。メモリとパーティション分割されたデータを管理する。

📖

用語

Spark Context

Sparkアプリケーションの主要エントリーポイント。クラスタへの接続を管理し、分散リソースへのアクセスを調整する。

📖

用語

Partition

Sparkにおけるデータ分散の論理単位。RDD/DataFrameを独立した断片に分割することで並列処理を可能にする。

📖

用語

Shuffle

パーティション間でのデータ再分配を行う高コストな操作。Sparkでの集計、結合、グループ化時に必要となる。

📖

用語

Catalyst Optimizer

Sparkクエリ最適化エンジン。実行プランを変換・再編成してパフォーマンスを向上させる。

📖

用語

Tungsten

バイナリデータ管理とバイトコード生成によるメモリとCPUの最適化を行うSpark実行バックエンド。

📖

用語

Cache/Persist

RDD/DataFrameをメモリまたはディスクに永続化する仕組み。高速な再利用と高コストな再計算の回避を実現する。

📖

用語

ブロードキャスト変数

結合時のネットワーク転送を最小化するために、すべてのエグゼキューターに効率的に配布される読み取り専用変数。

📖

用語

アキュムレーター

並列タスクからの情報をスレッドセーフな方法で集約するために使用される加算可能な共有変数。

📖

用語

変換

即時実行なしで新しいRDD/DataFrameを作成する遅延操作で、アクションがトリガーされるまで実行が延期される。

📖

用語

アクション

結果を生成するためにDAGプランの実行をトリガーする操作で、以前のすべての変換の計算を強制する。

AI用語集