AI用語集
人工知能の完全辞典
236
カテゴリ
3,245
サブカテゴリ
39,334
用語
用語
シーケンス並列処理
入力テンソルのシーケンス次元を複数のアクセラレータに分割する並列処理の一形態で、長いシーケンスを持つTransformerタイプのモデルで使用されます。
用語
エキスパート並列処理
異なるエキスパートネットワークを個別のアクセラレータに分散させ、計算負荷を均衡させる、エキスパート混合(MoE)モデルに特化した技術。
用語
分割データ並列処理
データ並列処理とZeRO戦略の組み合わせで、モデルの重みがワーカー間で分割(シャーディング)されつつ、データ並列処理を維持します。
用語
アクティベーションチェックポイント
順伝播中の中間アクティベーションを保存せず、逆伝播時に再計算してGPUメモリを節約するメモリ技術。
用語
ハイブリッド並列処理
リソース利用率を最大化し、数千のアクセラレータでトレーニングをスケールするため、複数の並列戦略(例:テンソル、パイプライン、データ)を組み合わせるアプローチ。
用語
オールリデュース通信
データ並列処理に不可欠な集合通信操作で、各アクセラレータの局所勾配を集約し再分配してモデルの重みを同期します。
用語
テンソルスライシング
テンソル並列処理の基本的な操作で、テンソルを特定の次元(例:行、列)に沿って分割し、複数のデバイスに分散させます。
用語
GPipe
マイクロバッチングとアクティベーションのチェックポイントを使用して、非常に大規模なニューラルネットワークを効率的にトレーニングするパイプライン並列処理の実装。
用語
Megatron-LM
NVIDIAによって開発されたテンソル並列アーキテクチャ。重み行列と勾配を分割することで、巨大な言語モデルのトレーニングを目的としています。
用語
DeepSpeed
Microsoftによる最適化ライブラリ。ZeRO、ハイブリッド並列処理、メモリ圧縮などの高度な技術を実装し、大規模モデルのトレーニングを可能にします。
用語
Offloading
メモリ管理戦略。データ(重み、勾配、活性化)を高速なGPUメモリと低速ですが容量の大きいCPUメモリの間で動的に移動させます。
🔍