AI 词汇表
人工智能完整词典
混合精度计算
一种同时使用多种不同精度的数值格式(FP64、FP32、FP16、INT8)的计算技术,旨在优化AI应用中内存性能、计算吞吐量和结果精度之间的平衡。
FP16(半精度浮点数)
16位数值表示格式,包含1个符号位、5个指数位和10个尾数位,用于加速计算并减少内存占用,但精度有所降低。
FP32(单精度浮点数)
标准的32位数值表示格式,包含1个符号位、8个指数位和23个尾数位,是大多数AI模型训练的精度的参考标准。
INT8(8位整数)
8位量化格式,表示有符号整数,主要用于推理阶段,以最大化计算吞吐量并最小化硬件加速器的能耗。
张量核心
现代GPU(NVIDIA)中集成的专用计算单元,设计用于以高度并行的方式执行混合精度(FP16/FP32)的矩阵乘法累加运算。
动态损失缩放
损失缩放的自适应变体,其中缩放因子在训练过程中动态调整,在稳定时增加,在溢出时减少,以优化收敛性。
主权重
在混合精度训练期间以FP32(或FP64)维护的模型权重副本,作为权重更新的精度参考,而前向/反向传播计算在FP16中执行。
自动混合精度(AMP)
AI框架(PyTorch、TensorFlow)的功能,自动选择在FP16或FP32中执行的操作,管理类型转换,并以透明方式应用损失缩放。
向量处理单元(VPU)
专为整数精度(INT8)和低精度计算优化的专用硬件加速器,设计用于在边缘设备上高效进行神经网络推理。
稀疏性加速
结合混合精度的技术,利用张量中的零值跳过不必要的计算,减少内存带宽需求并提高矩阵运算的有效吞吐量。
数值稳定性分析
系统评估精度降低对模型收敛性和最终精度的影响,识别在混合精度策略中需要保持FP32精度的敏感层。
FP8(8位浮点数)
新兴的8位表示格式,具有不同变体(E4M3、E5M2),针对训练和推理进行优化,为超大型模型提供吞吐量与精度之间的极致平衡。
混合精度中的梯度累积
在权重更新前,将FP16计算的梯度累积到FP32缓冲区中的技术,防止在多个小批次聚合时精度损失。
精度感知剪枝
考虑每层对精度降低敏感度的网络剪枝方法,在低精度下鲁棒性强的层上应用更激进的剪枝以最大化加速效果。