テンサーコア最適化

📖

用語

FP16演算

半精度浮動小数点（16ビット）の演算で、Tensor Cores上でFP32と比較して最大8倍のスループットを提供し、メモリ帯域幅と消費電力を大幅に削減します。

📖

用語

TensorFloat-32 (TF32)

NVIDIAのハイブリッド数値形式で、FP32と同じ8ビットの指数部とFP16と同じ10ビットの仮数部を使用し、Ampere Tensor Coresのための動的範囲と精度の最適なトレードオフを提供します。

📖

用語

Warp Matrix Multiply-Accumulate (WMMA)

32スレッドのワープがフラグメント化されたレジスタにアクセスしながら、Tensor Cores上で直接行列の乗算-累積演算を効率的に実行できるCUDA API。

📖

用語

Tensor Cores用CUDAカーネル

Tensor Core命令を活用するために特別に最適化されたGPUプログラムで、WMMAプリミティブまたは高水準ライブラリを使用して最大の行列スループットを実現します。

📖

用語

行列フラグメンテーション

行列をより小さなフラグメントに分割し、ワープのスレッド間で配布してTensor Coreユニット上で並列実行する技術で、計算リソースの使用を最適化します。

📖

用語

Tensor Core使用率

Tensor Coresが有用な計算を実行しているサイクルの割合を測定する指標で、最適化の効率を評価し、ボトルネックを特定するために重要です。

📖

用語

推論用INT8量子化

ニューラルネットワークの重みと活性化を8ビット整数に変換し、Tensor Cores上で最大32倍の高速化を実現しつつ、精度の低下を制御します。

📖

用語

CublasLt Tensor Coreライブラリ

Tensor Cores用に最適化されたCUBLASライブラリの拡張で、混合精度形式のネイティブサポートを備えた高性能なGEMM（一般行列乗算）ルーチンを提供します。

📖

用語

共有メモリタイリング

Tensor Coreアクセスのための最適なタイルでGPU共有メモリ内のデータを整理する戦略で、バンク衝突を最小化し帯域幅を最大化します。

📖

用語

ワープレベルマトリックススケジューリング

Tensor Coreパイプラインの使用率を最大化するために、レイテンシとデータ依存性を考慮してワープレベルでの行列演算をスケジュールします。

📖

用語

Tensor Coreレジスタプレッシャー

SMあたりのレジスタ数の制限に関連する制約で、Tensor Core演算の並列化能力に影響を与え、占有率とユニットの効率的な使用のバランスが必要です。

📖

用語

ディープラーニングベンチマーク

ニューラルネットワークの実際のトレーニングと推論ワークロードでTensor Core最適化のパフォーマンスを評価するMLPerfのようなテストスイート。

📖

用語

自動混合精度（AMP）

適格なTensor Core演算を識別し、数値安定性のためにFP32のコピーを維持する、演算精度を自動的に選択する手法。

📖

用語

Tensor Coreメモリコアレッシング

Tensor Coreのアクセスパターンに合わせてメモリアクセスを最適化し、連続したアクセスにトランザクションをグループ化してスループットを最大化します。

📖

用語

疎行列サポート

Ampere Tensor Coreが構造化された疎行列を効率的に処理する能力で、スパーシティを持つニューラルネットワークに対して最大2倍の高速化を提供します。

AI用語集