量化和优化 - AI 詞彙表

📖

術語

量化感知训练 (QAT)

一种优化方法，在训练过程中集成低精度量化模拟，使模型能够调整其权重以最小化量化引起的性能损失。

📖

術語

低秩适应 (LoRA)

一种有效的适应方法，冻结预训练模型的权重并注入可分解的小型低秩矩阵，在保持性能的同时大幅减少微调的可训练参数数量。

📖

術語

8位浮点表示 (FP8)

使用8位表示浮点数的超低精度数值数据格式，在现代GPU上实现显著加速，同时保持大模型训练的稳定性。

📖

術語

4位整数量化 (INT4)

极端压缩技术，用4位表示模型权重，需要先进的量化算法且通常需要部分重新训练来补偿显著的信息损失。

📖

術語

量化偏差补偿 (Q-Bias)

后量化调整技术，系统性地分析和纠正精度降低引入的偏差，通常通过修改归一化层或线性层的偏差来实现。

📖

術語

量化网格搜索优化

系统性探索不同量化配置（逐层、分组、混合）的方法，以找到为给定架构提供模型大小、速度和精度最佳平衡的最优方案。

📖

術語

推测推理

生成推理加速技术，小型草稿模型快速提出多个令牌，然后由大型目标模型并行验证，从而减少昂贵计算步骤的总数。

📖

術語

截断奇异值分解

应用SVD分解后截断最小的奇异值，通过低秩和来近似权重矩阵，从而以受控的误差减少参数和计算量。

📖

術語

块量化 (Block-wise Quantization)

一种量化策略，将权重张量分割成更小的块，并对每个块独立应用量化，与全局量化相比，能更好地保持值的分布并减少整体误差。

📖

術語

结构化稀疏权重 (Structured Sparsity)

一种剪枝形式，对被剪除的权重施加规律性模式（按行、列或块），与随机非结构化稀疏性不同，能够有效利用CPU/GPU上的硬件加速。

AI 詞彙表