量子化と最適化

📖

用語

量子化意識学習 (QAT)

訓練中に低精度量子化のシミュレーションを組み込む最適化手法であり、モデルが量子化によって生じる性能の低下を最小限に抑えるように重みを調整することを可能にする。

📖

用語

低ランク適応 (LoRA)

事前学習済みモデルの重みを凍結し、分解可能な小さな低ランク行列を注入する効率的な適応手法。ファインチューニングのために学習可能なパラメータ数を劇的に削減しつつ、性能を維持する。

📖

用語

8ビット浮動小数点表現 (FP8)

浮動小数点数を表現するために8ビットを使用する非常に低精度の数値データ形式。大規模モデルの訓練における安定性を維持しながら、最新のGPUでの大幅な高速化を可能にする。

📖

用語

4ビット整数量子化 (INT4)

モデルの重みを4ビットで表現する極限の圧縮技術。高度な量子化アルゴリズムを必要とし、大幅な情報損失を補うために部分的な再学習が必要となることが多い。

📖

用語

量子化バイアス補正 (Q-Bias)

精度の低下によって生じるバイアスを体系的に分析および修正する量子化後の調整技術。通常、正規化層や線形層のバイアスを変更することで行われる。

📖

用語

量子化グリッドサーチ最適化

特定のアーキテクチャにおいて、モデルサイズ、速度、精度の間で最適なバランスを提供する最適なスキームを特定するために、異なる量子化構成（層ごと、グループごと、混合など）を体系的に探索する手法。

📖

用語

投機的推論 (Speculative Inference)

小さな「ドラフト」モデルが複数のトークンを迅速に提案し、それらをターゲットとなる大規模モデルで並列に検証する生成推論の高速化技術。計算コストの高いステップの総数を削減する。

📖

用語

切断特異値分解 (Truncated SVD)

最小の特異値を切り捨てる特異値分解（SVD）を適用し、重み行列を低ランクの和で近似することで、制御された誤差範囲内でパラメータ数と計算量を削減する手法。

📖

用語

ブロック単位量子化 (Block-wise Quantization)

重みテンソルをより小さなブロックに分割し、各ブロックに独立した量子化を適用する量子化戦略です。全体量子化と比較して、値の分布をより良く保持し、全体的な誤差を低減します。

📖

用語

構造化スパース重み (Structured Sparsity)

削除された重みに対して規則的なパターン（行、列、またはブロック単位）を強制するプルーニングの一種です。ランダムな非構造化スパースとは異なり、CPU/GPU上のハードウェアアクセラレーションを効率的に活用できます。

AI用語集