AI 詞彙表
人工智能完整詞典
训练后量化(PTQ)
应用于已训练模型的精度降低技术,无需完全重新训练。它将高精度权重和激活(如FP32)转换为较低精度表示(如INT8)以优化推理。
训练感知量化(QAT)
在训练期间将量化和反量化操作集成到计算图中的方法。这使得模型能够适应精度损失,相比PTQ最小化性能下降。
二值化神经网络(BNN)
量化的极端形式,其中权重和/或激活被约束为单一二进制值(+1或-1)。通过用加法/减法替换乘法,实现了显著的计算和内存增益。
结构化剪枝
压缩技术,删除整个权重结构,如过滤器、通道或注意力头,而不是单个权重。相比非结构化剪枝,它在现代硬件上更有效地加速计算。
非结构化剪枝
压缩方法,消除网络中的单个权重,通常是幅度较小的权重。虽然可以减少模型大小,但需要专门的硬件支持(稀疏性)来加速计算。
低秩矩阵分解
压缩技术,将大型权重矩阵分解为两个或多个较小的矩阵。它减少了参数数量和矩阵乘法操作,从而加速密集层和卷积层。
知识蒸馏
压缩过程,其中一个小模型
权重霍夫曼编码
无损压缩方法,将霍夫曼编码算法应用于模型权重。它为最频繁出现的权重分配较短的二进制代码,在不影响推理速度的情况下减少磁盘文件大小。
权重共享
一种压缩技术,将权重分组到聚类中,并用其聚类质心的索引替换每个权重。这减少了存储每个权重所需的比特数,并允许在推理时使用查找表。
Tucker分解
一种应用于权重张量(4D卷积)的张量分解形式,用于压缩。它将一个张量分解为一个较小的核心张量和因子矩阵,显著减少参数数量和计算成本。
CP分解(CANDECOMP/PARAFAC)
一种张量分解方法,将张量表示为一系列秩一向量乘积的和。它通过用较少的组件近似权重张量来压缩卷积层。
可变宽度神经网络(VNN)
一种模型架构,其中每层中活跃通道的数量可以根据资源约束动态变化。它在运行时实现了精度和计算成本之间的灵活权衡。
分块量化
将权重或激活张量划分为更小的块,并对每个块独立应用量化的技术。它能更好地捕捉局部幅度变化,减少整体量化误差。
8位浮点数表示(FP8)
使用8位表示浮点数的低精度数据格式,具有不同变体(E4M3、E5M2)用于训练和推理。对于某些AI工作负载,它提供了优于整数格式的权衡。
结构化稀疏性N:M
一种剪枝方案,其中对于每M个权重的块,恰好保留N个权重(N < M)。这种规则模式旨在通过现代GPU的专用矩阵计算单元(Tensor Cores)高效加速。