AI用語集
人工知能の完全辞典
Apache Spark
インメモリ分散処理のオープンソースフレームワークで、最適化された並列実行によりビッグデータ分析を高速化するように設計されています。
RDD (Resilient Distributed Dataset)
Sparkの基本的なデータ構造で、不変かつ分割された構造を持ち、失われたデータの再構築によるフォールトトレランスを実現します。
DataFrame
名前付き列で整理された分散データコレクションで、データベースのテーブルに似ており、構造化クエリに最適化されています。
Spark SQL
SQLクエリとDataFrame操作を統合するSparkモジュールで、Catalyst Optimizerによる自動最適化を提供します。
Spark Streaming
マイクロバッチを使用したリアルタイムデータストリーム処理を可能にするSpark拡張機能で、準リアルタイムの遅延を実現します。
MLlib
Sparkの分散機械学習ライブラリで、分類、回帰、クラスタリング、レコメンデーションのアルゴリズムを提供します。
GraphX
分散グラフ処理のためのSpark APIで、グラフの利点とRDDのパフォーマンスを組み合わせています。
DAG (Directed Acyclic Graph)
Spark変換の実行計画を表す有向非巡回グラフで、冗長性の排除と処理の並列化のために最適化されています。
Spark Driver
Sparkタスクの実行を調整する主要プロセス。SparkContextを作成し、操作をステージに分割する。
Spark Executor
クラスタの各ノードでDriverから割り当てられたタスクを実行するワーカープロセス。メモリとパーティション分割されたデータを管理する。
Spark Context
Sparkアプリケーションの主要エントリーポイント。クラスタへの接続を管理し、分散リソースへのアクセスを調整する。
Partition
Sparkにおけるデータ分散の論理単位。RDD/DataFrameを独立した断片に分割することで並列処理を可能にする。
Shuffle
パーティション間でのデータ再分配を行う高コストな操作。Sparkでの集計、結合、グループ化時に必要となる。
Catalyst Optimizer
Sparkクエリ最適化エンジン。実行プランを変換・再編成してパフォーマンスを向上させる。
Tungsten
バイナリデータ管理とバイトコード生成によるメモリとCPUの最適化を行うSpark実行バックエンド。
Cache/Persist
RDD/DataFrameをメモリまたはディスクに永続化する仕組み。高速な再利用と高コストな再計算の回避を実現する。
ブロードキャスト変数
結合時のネットワーク転送を最小化するために、すべてのエグゼキューターに効率的に配布される読み取り専用変数。
アキュムレーター
並列タスクからの情報をスレッドセーフな方法で集約するために使用される加算可能な共有変数。
変換
即時実行なしで新しいRDD/DataFrameを作成する遅延操作で、アクションがトリガーされるまで実行が延期される。
アクション
結果を生成するためにDAGプランの実行をトリガーする操作で、以前のすべての変換の計算を強制する。