分散フレームワーク

📖

用語

PyTorchのネイティブモジュールで、大規模分散トレーニングのための集合通信プリミティブを提供します。GPU用のNCCL、CPU/GPU用のGloo、高性能コンピューティング環境での最大限の柔軟性のためのMPIなどのバックエンドを実装しています。

📖

用語

FacebookがPyTorchのために開発した集合通信ライブラリで、異なるネットワークタイプでCPUとGPUをサポートしています。異なるネットワークトポロジー向けの最適化とともに、分散操作のポータブルな実装を提供します。

📖

用語

Message Passing Interfaceの略で、共有メモリまたは分散メモリシステム用の通信標準です。高性能コンピューティング環境での並列アルゴリズムの実装に不可欠な、ポイントツーポイント通信と集合通信のプリミティブを提供します。

📖

用語

分散アーキテクチャにおいて計算タスクの実行を担当する計算ノードで、フォワード/バックワード計算や勾配評価などを行います。MLフレームワークでは、ワーカーがトレーニングの計算作業の大部分を実行します。

📖

用語

分散アーキテクチャにおけるコーディネーターノードで、トレーニングプロセス全体を調整しタスクの配信を管理します。プロセスの初期化、ワーカー間の調整、最終結果の統合を担当します。

📖

用語

TensorFlowの分散戦略で、各GPUがモデル変数の完全なコピーを維持し、各ステップ後に勾配を同期します。このアプローチは、実装のシンプルさとマルチGPUマシンでのトレーニング効率を組み合わせています。

📖

用語

TensorFlowのミラーストラテジーの拡張で、複数マシンでのトレーニング用で、Collective All-Reduceを使用してワーカー間の勾配を同期します。ローカルミラーリングの利点とマルチマシンのスケーラビリティを組み合わせています。

📖

用語

GoogleのTensor Processing Units (TPU)向けに最適化されたTensorFlow戦略で、高速通信のためにメッシュアーキテクチャを活用します。数百のコアを含むTPUポッドでトレーニングを効率的にスケーリングできます。

📖

用語

PyTorchモジュールで、バケット化されたAll-Reduceを使用して勾配の同期同期を伴うデータ並列を実装しています。勾配をグループ化し、計算と転送を重ね合わせてリソースの使用率を最大化することで、通信を最適化します。

AI用語集