AI用語集
人工知能の完全辞典
量子化
AIモデルの重みと活性化の数値精度を低下させるプロセスで、推論を最適化しメモリフットプリントを削減する。
8ビット量子化
モデルの重みを32ビットから8ビットに圧縮する技術で、LLMにおいて性能と精度の最適なバランスを提供する。
4ビット量子化
重みを4ビットに圧縮する極限的な圧縮手法で、メモリ面で大きな利得があるが品質の低下の可能性がある。
学習後量子化(PTQ)
モデルの学習後に適用される技術で、完全な再学習を必要とせずに重みを低精度に変換する。
量子化対応学習(QAT)
学習プロセス中に量子化の効果をシミュレートし、精度の低下を最小限に抑える学習アプローチ。
動的量子化
推論時に活性化をオンザフライで量子化する手法で、柔軟性を提供するが計算オーバーヘッドがある。
静的量子化
推論前に量子化パラメータを事前計算するアプローチで、柔軟性を犠牲にして速度を最適化する。
量子化キャリブレーション
代表的なデータサンプルから最適な量子化パラメータ(スケール、ゼロ点)を決定するプロセス。
GPTQ
勾配ベースの学習後量子化。量子化された重みを反復的に最適化し、再構成誤差を最小化する高度な技術。
AWQ
活性化を考慮した重み量子化。対応する活性化の振幅に基づいて重みの重要度を重み付けする手法。
ゼロショット量子化
キャリブレーションデータを必要とせず、重みの分布に基づくヒューリスティックを使用してモデルを量子化する技術。
混合精度量子化
モデルの層ごとに異なる量子化精度を適用し、性能と精度のトレードオフを最適化する戦略。
対称量子化
値の範囲がゼロを中心に対称な量子化方式。計算を簡素化するが、ダイナミックレンジを十分に活用できない可能性がある。
非対称量子化
ゼロを中心としない値の範囲を許容するアプローチ。非対称分布に対して量子化範囲の利用を最適化する。
スケールファクター
連続値を量子化範囲にマッピングするために使用される乗算パラメータ。量子化の精度にとって重要。
ゼロポイント
非対称量子化において、浮動小数点のゼロ値を量子化表現に合わせるために追加されるオフセット。
量子化ノイズ
精度の低下によって導入される誤差で、重みの近似によるモデル性能の劣化として現れる。
量子化対応ファインチューニング
量子化後の軽微な調整プロセスで、モデル圧縮中に失われた精度を回復させることを目的とする。
SmoothQuant
事前の数学的変換によって重みと活性化の量子化難易度を均等化する量子化技術。
LLM.int8()
大規模言語モデル向けの特定の8ビット量子化手法で、行列分解とハイブリッド量子化を組み合わせる。