モデルの並列化

📖

用語

シーケンス並列処理

入力テンソルのシーケンス次元を複数のアクセラレータに分割する並列処理の一形態で、長いシーケンスを持つTransformerタイプのモデルで使用されます。

📖

用語

エキスパート並列処理

異なるエキスパートネットワークを個別のアクセラレータに分散させ、計算負荷を均衡させる、エキスパート混合(MoE)モデルに特化した技術。

📖

用語

分割データ並列処理

データ並列処理とZeRO戦略の組み合わせで、モデルの重みがワーカー間で分割（シャーディング）されつつ、データ並列処理を維持します。

📖

用語

アクティベーションチェックポイント

順伝播中の中間アクティベーションを保存せず、逆伝播時に再計算してGPUメモリを節約するメモリ技術。

📖

用語

ハイブリッド並列処理

リソース利用率を最大化し、数千のアクセラレータでトレーニングをスケールするため、複数の並列戦略（例：テンソル、パイプライン、データ）を組み合わせるアプローチ。

📖

用語

オールリデュース通信

データ並列処理に不可欠な集合通信操作で、各アクセラレータの局所勾配を集約し再分配してモデルの重みを同期します。

📖

用語

テンソルスライシング

テンソル並列処理の基本的な操作で、テンソルを特定の次元（例：行、列）に沿って分割し、複数のデバイスに分散させます。

📖

用語

GPipe

マイクロバッチングとアクティベーションのチェックポイントを使用して、非常に大規模なニューラルネットワークを効率的にトレーニングするパイプライン並列処理の実装。

📖

用語

Megatron-LM

NVIDIAによって開発されたテンソル並列アーキテクチャ。重み行列と勾配を分割することで、巨大な言語モデルのトレーニングを目的としています。

📖

用語

DeepSpeed

Microsoftによる最適化ライブラリ。ZeRO、ハイブリッド並列処理、メモリ圧縮などの高度な技術を実装し、大規模モデルのトレーニングを可能にします。

📖

用語

Offloading

メモリ管理戦略。データ（重み、勾配、活性化）を高速なGPUメモリと低速ですが容量の大きいCPUメモリの間で動的に移動させます。

AI用語集