混合量子化

📖

用語

ニューラルネットワークの各層に異なるビット精度を適用し、モデルのパフォーマンスとサイズのバランスを取る最適化手法。この戦略的なアプローチにより、メモリ全体を削減しながら、重要な層では高い精度を維持することができます。

📖

用語

量子化を意識した学習

低精度の量子化の効果をシミュレートするために、トレーニング中に疑似量子化操作を統合する方法論。この手法により、モデルは最終的な変換前に丸め誤差に適応することができます。

📖

用語

層の感度

ニューラルネットワークの個々の層のパフォーマンスに対する量子化の影響を測定する指標。感度の高い層は、モデル全体の品質を維持するために、より高い精度を必要とします。

📖

用語

異種量子化

各層の計算特性と重要性に応じて、異なるビット幅を動的に割り当てる量子化アプローチ。この戦略は、ハードウェアアクセラレーションと精度の低下の間のトレードオフを最適化します。

📖

用語

モデルプロファイリング

異なる量子化戦略の候補となる層を特定するために、学習済みモデルの特性を包括的に分析すること。プロファイリングでは、統計分布、動的範囲、および精度への影響を評価します。

📖

用語

テンソル単位の量子化

テンソル全体に単一の量子化パラメータセットを適用し、すべての値に対してスケールの一貫性を保証する手法。このアプローチはハードウェア実装を簡素化しますが、広い分布では精度が低下する可能性があります。

📖

用語

チャンネル単位の量子化

畳み込み層内の各チャンネルまたはチャンネルグループに対して個別のパラメータを使用する量子化手法。この方法は、スケールを各フィルタの特性に適応させることで、精度をよりよく維持します。

📖

用語

量子化スケール

式 Q = round(R/S + Z) に従って、浮動小数点値を量子化された整数に変換する乗算パラメータ。スケールは、量子化された値の精度と表現範囲を決定します。

📖

用語

量子化ゼロ点

量子化されたシステムにおいて浮動小数点のゼロ値に対応する整数値であり、ニューラルネットワークの構造的ゼロを維持するために不可欠です。このパラメータは、量子化領域と実数領域間の正確な整合性を可能にします。

📖

用語

量子化ノイズ

高精度の数値を低ビット表現に変換する際に生じるエラーであり、情報の損失として現れます。量子化ノイズの解析は、高精度で維持すべき層の選択を指針とします。

📖

用語

再量子化

同一モデル内で異なる量子化精度間を変換するプロセスであり、異なるビット幅の層間での演算時に必要となります。再量子化は、リソースの使用を最適化しながら、数値的な整合性を維持します。

📖

用語

可変ビット戦略

精度の制約下でモデルサイズを最小化するために、ネットワーク全体のビット幅の最適な配分を決定するアルゴリズム的なアプローチです。この戦略は、複雑な組み合わせ最適化問題を解決します。

📖

用語

階層的量子化

重要度と量子化に対する感度に基づいて層を階層化する手法です。階層的量子化は、各層グループの階層レベルに応じて異なるビットポリシーを適用します。

AI用語集