AI用語集
人工知能の完全辞典
PyTorch Distributed
PyTorchのネイティブモジュールで、大規模分散トレーニングのための集合通信プリミティブを提供します。GPU用のNCCL、CPU/GPU用のGloo、高性能コンピューティング環境での最大限の柔軟性のためのMPIなどのバックエンドを実装しています。
Gloo
FacebookがPyTorchのために開発した集合通信ライブラリで、異なるネットワークタイプでCPUとGPUをサポートしています。異なるネットワークトポロジー向けの最適化とともに、分散操作のポータブルな実装を提供します。
MPI
Message Passing Interfaceの略で、共有メモリまたは分散メモリシステム用の通信標準です。高性能コンピューティング環境での並列アルゴリズムの実装に不可欠な、ポイントツーポイント通信と集合通信のプリミティブを提供します。
Worker Node
分散アーキテクチャにおいて計算タスクの実行を担当する計算ノードで、フォワード/バックワード計算や勾配評価などを行います。MLフレームワークでは、ワーカーがトレーニングの計算作業の大部分を実行します。
Master Node
分散アーキテクチャにおけるコーディネーターノードで、トレーニングプロセス全体を調整しタスクの配信を管理します。プロセスの初期化、ワーカー間の調整、最終結果の統合を担当します。
Mirror Strategy
TensorFlowの分散戦略で、各GPUがモデル変数の完全なコピーを維持し、各ステップ後に勾配を同期します。このアプローチは、実装のシンプルさとマルチGPUマシンでのトレーニング効率を組み合わせています。
Multi-Worker Mirrored Strategy
TensorFlowのミラーストラテジーの拡張で、複数マシンでのトレーニング用で、Collective All-Reduceを使用してワーカー間の勾配を同期します。ローカルミラーリングの利点とマルチマシンのスケーラビリティを組み合わせています。
TPUStrategy
GoogleのTensor Processing Units (TPU)向けに最適化されたTensorFlow戦略で、高速通信のためにメッシュアーキテクチャを活用します。数百のコアを含むTPUポッドでトレーニングを効率的にスケーリングできます。
DDP (DistributedDataParallel)
PyTorchモジュールで、バケット化されたAll-Reduceを使用して勾配の同期同期を伴うデータ並列を実装しています。勾配をグループ化し、計算と転送を重ね合わせてリソースの使用率を最大化することで、通信を最適化します。