量化与压缩 - AI 詞彙表

📖

術語

训练后量化（PTQ）

应用于已训练模型的精度降低技术，无需完全重新训练。它将高精度权重和激活（如FP32）转换为较低精度表示（如INT8）以优化推理。

📖

術語

训练感知量化（QAT）

在训练期间将量化和反量化操作集成到计算图中的方法。这使得模型能够适应精度损失，相比PTQ最小化性能下降。

📖

術語

二值化神经网络（BNN）

量化的极端形式，其中权重和/或激活被约束为单一二进制值（+1或-1）。通过用加法/减法替换乘法，实现了显著的计算和内存增益。

📖

術語

结构化剪枝

压缩技术，删除整个权重结构，如过滤器、通道或注意力头，而不是单个权重。相比非结构化剪枝，它在现代硬件上更有效地加速计算。

📖

術語

非结构化剪枝

压缩方法，消除网络中的单个权重，通常是幅度较小的权重。虽然可以减少模型大小，但需要专门的硬件支持（稀疏性）来加速计算。

📖

術語

低秩矩阵分解

压缩技术，将大型权重矩阵分解为两个或多个较小的矩阵。它减少了参数数量和矩阵乘法操作，从而加速密集层和卷积层。

📖

術語

知识蒸馏

压缩过程，其中一个小模型

📖

術語

权重霍夫曼编码

无损压缩方法，将霍夫曼编码算法应用于模型权重。它为最频繁出现的权重分配较短的二进制代码，在不影响推理速度的情况下减少磁盘文件大小。

📖

術語

权重共享

一种压缩技术，将权重分组到聚类中，并用其聚类质心的索引替换每个权重。这减少了存储每个权重所需的比特数，并允许在推理时使用查找表。

📖

術語

Tucker分解

一种应用于权重张量（4D卷积）的张量分解形式，用于压缩。它将一个张量分解为一个较小的核心张量和因子矩阵，显著减少参数数量和计算成本。

📖

術語

CP分解（CANDECOMP/PARAFAC）

一种张量分解方法，将张量表示为一系列秩一向量乘积的和。它通过用较少的组件近似权重张量来压缩卷积层。

📖

術語

可变宽度神经网络（VNN）

一种模型架构，其中每层中活跃通道的数量可以根据资源约束动态变化。它在运行时实现了精度和计算成本之间的灵活权衡。

📖

術語

分块量化

将权重或激活张量划分为更小的块，并对每个块独立应用量化的技术。它能更好地捕捉局部幅度变化，减少整体量化误差。

📖

術語

8位浮点数表示（FP8）

使用8位表示浮点数的低精度数据格式，具有不同变体（E4M3、E5M2）用于训练和推理。对于某些AI工作负载，它提供了优于整数格式的权衡。

📖

術語

结构化稀疏性N:M

一种剪枝方案，其中对于每M个权重的块，恰好保留N个权重（N < M）。这种规则模式旨在通过现代GPU的专用矩阵计算单元（Tensor Cores）高效加速。

AI 詞彙表