テンサーコア最適化
Warp Matrix Multiply-Accumulate (WMMA)
32スレッドのワープがフラグメント化されたレジスタにアクセスしながら、Tensor Cores上で直接行列の乗算-累積演算を効率的に実行できるCUDA API。
← 戻る32スレッドのワープがフラグメント化されたレジスタにアクセスしながら、Tensor Cores上で直接行列の乗算-累積演算を効率的に実行できるCUDA API。
← 戻る