量子化と圧縮
N:M構造化スパース性 (N:M Structured Sparsity)
M個の重みの各ブロックに対して、正確にN個の重みが保持される(N < M)プルーニングスキーム。この規則的なパターンは、最新のGPUのテンソルコア(行列計算ユニット)によって効率的に高速化されるように設計されています。
← 戻るM個の重みの各ブロックに対して、正確にN個の重みが保持される(N < M)プルーニングスキーム。この規則的なパターンは、最新のGPUのテンソルコア(行列計算ユニット)によって効率的に高速化されるように設計されています。
← 戻る