AI用語集
人工知能の完全辞典
FP16演算
半精度浮動小数点(16ビット)の演算で、Tensor Cores上でFP32と比較して最大8倍のスループットを提供し、メモリ帯域幅と消費電力を大幅に削減します。
TensorFloat-32 (TF32)
NVIDIAのハイブリッド数値形式で、FP32と同じ8ビットの指数部とFP16と同じ10ビットの仮数部を使用し、Ampere Tensor Coresのための動的範囲と精度の最適なトレードオフを提供します。
Warp Matrix Multiply-Accumulate (WMMA)
32スレッドのワープがフラグメント化されたレジスタにアクセスしながら、Tensor Cores上で直接行列の乗算-累積演算を効率的に実行できるCUDA API。
Tensor Cores用CUDAカーネル
Tensor Core命令を活用するために特別に最適化されたGPUプログラムで、WMMAプリミティブまたは高水準ライブラリを使用して最大の行列スループットを実現します。
行列フラグメンテーション
行列をより小さなフラグメントに分割し、ワープのスレッド間で配布してTensor Coreユニット上で並列実行する技術で、計算リソースの使用を最適化します。
Tensor Core使用率
Tensor Coresが有用な計算を実行しているサイクルの割合を測定する指標で、最適化の効率を評価し、ボトルネックを特定するために重要です。
推論用INT8量子化
ニューラルネットワークの重みと活性化を8ビット整数に変換し、Tensor Cores上で最大32倍の高速化を実現しつつ、精度の低下を制御します。
CublasLt Tensor Coreライブラリ
Tensor Cores用に最適化されたCUBLASライブラリの拡張で、混合精度形式のネイティブサポートを備えた高性能なGEMM(一般行列乗算)ルーチンを提供します。
共有メモリタイリング
Tensor Coreアクセスのための最適なタイルでGPU共有メモリ内のデータを整理する戦略で、バンク衝突を最小化し帯域幅を最大化します。
ワープレベルマトリックススケジューリング
Tensor Coreパイプラインの使用率を最大化するために、レイテンシとデータ依存性を考慮してワープレベルでの行列演算をスケジュールします。
Tensor Coreレジスタプレッシャー
SMあたりのレジスタ数の制限に関連する制約で、Tensor Core演算の並列化能力に影響を与え、占有率とユニットの効率的な使用のバランスが必要です。
ディープラーニングベンチマーク
ニューラルネットワークの実際のトレーニングと推論ワークロードでTensor Core最適化のパフォーマンスを評価するMLPerfのようなテストスイート。
自動混合精度(AMP)
適格なTensor Core演算を識別し、数値安定性のためにFP32のコピーを維持する、演算精度を自動的に選択する手法。
Tensor Coreメモリコアレッシング
Tensor Coreのアクセスパターンに合わせてメモリアクセスを最適化し、連続したアクセスにトランザクションをグループ化してスループットを最大化します。
疎行列サポート
Ampere Tensor Coreが構造化された疎行列を効率的に処理する能力で、スパーシティを持つニューラルネットワークに対して最大2倍の高速化を提供します。