量子化と圧縮 - AI用語集

📖

用語

トレーニング後量子化 (PTQ)

完全な再トレーニングを必要とせず、すでにトレーニング済みのモデルに適用される精度削減技術。高精度（例：FP32）の重みと活性化を、より低精度（例：INT8）の表現に変換して推論を最適化します。

📖

用語

トレーニング意識量子化 (QAT)

トレーニング中に量子化および逆量子化操作を計算グラフに統合する方法。これにより、モデルは精度の低下に適応でき、PTQに比べてパフォーマンスの低下を最小限に抑えます。

📖

用語

ニューラルネットワークの二値化 (BNN)

重みおよび/または活性化を単一のバイナリ値（+1または-1）に制約する量子化の極端な形式。乗算を加算/減算に置き換えることで、計算とメモリの大幅な削減を可能にします。

📖

用語

構造化プルーニング

個々の重みではなく、フィルター、チャネル、アテンションヘッドなどの重み構造全体を削除する圧縮技術。非構造化プルーニングよりも現代のハードウェアでの計算を高速化するのに効果的です。

📖

用語

非構造化プルーニング

通常は最小の大きさの重みを削除するネットワーク内の個々の重みを排除する圧縮方法。モデルサイズを削減できますが、計算を高速化するには特殊なハードウェアサポート（スパーシティ）が必要です。

📖

用語

低ランク行列因子分解

大きな重み行列を2つ以上の小さな行列に分解する圧縮技術。パラメータ数と行列乗算操作を削減し、密な層と畳み込み層を高速化します。

📖

用語

知識蒸留

プロセス de compression où un petit modèle

📖

用語

重みのハフマン符号化

モデルの重みにハフマン符号化アルゴリズムを適用する可逆圧縮方法。より頻繁な重みに短いバイナリコードを割り当て、推論速度に影響を与えずにディスク上のファイルサイズを削減します。

📖

用語

重み共有 (Weight Sharing)

重みをクラスタにグループ化し、各重みをそのクラスタのセントロイドのインデックスに置き換える圧縮技術。これにより、各重みを格納するために必要なビット数が削減され、推論時にルックアップテーブル（参照テーブル）の使用が可能になります。

📖

用語

タッカー分解 (Tucker Decomposition)

重みテンソル（4D畳み込み）を圧縮するために適用されるテンソル分解の一形態。テンソルを、より小さなコアテンソルと因子行列に分解し、パラメータ数と計算コストを大幅に削減します。

📖

用語

CP分解 (CANDECOMP/PARAFAC)

テンソルをランク1のベクトル積の和として表現するテンソル分解法。畳み込み層を、重みテンソルを少数の成分で近似することによって圧縮するために使用されます。

📖

用語

可変幅ニューラルネットワーク (VNN)

各レイヤーのアクティブなチャネル数がリソース制約に応じて動的に変化するモデルアーキテクチャ。実行時に精度と計算コストの間で柔軟なトレードオフを可能にします。

📖

用語

ブロックごとの量子化 (Blockwise Quantization)

重みまたは活性化テンソルをより小さなブロックに分割し、各ブロックに独立して量子化を適用する技術。これにより、局所的な大きさの変動をより捉えることができ、全体の量子化誤差を削減します。

📖

用語

8ビット浮動小数点数表現 (FP8)

8ビットを使用して浮動小数点数を表現する低精度のデータ形式で、訓練と推論のために異なるバリエーション（E4M3, E5M2）があります。一部のAIワークロードにおいて、整数形式よりも優れたトレードオフを提供します。

📖

用語

N:M構造化スパース性 (N:M Structured Sparsity)

M個の重みの各ブロックに対して、正確にN個の重みが保持される（N < M）プルーニングスキーム。この規則的なパターンは、最新のGPUのテンソルコア（行列計算ユニット）によって効率的に高速化されるように設計されています。

AI用語集