混合精度计算

📖

術語

一种同时使用多种不同精度的数值格式（FP64、FP32、FP16、INT8）的计算技术，旨在优化AI应用中内存性能、计算吞吐量和结果精度之间的平衡。

📖

術語

FP16（半精度浮点数）

16位数值表示格式，包含1个符号位、5个指数位和10个尾数位，用于加速计算并减少内存占用，但精度有所降低。

📖

術語

FP32（单精度浮点数）

标准的32位数值表示格式，包含1个符号位、8个指数位和23个尾数位，是大多数AI模型训练的精度的参考标准。

📖

術語

INT8（8位整数）

8位量化格式，表示有符号整数，主要用于推理阶段，以最大化计算吞吐量并最小化硬件加速器的能耗。

📖

術語

张量核心

现代GPU（NVIDIA）中集成的专用计算单元，设计用于以高度并行的方式执行混合精度（FP16/FP32）的矩阵乘法累加运算。

📖

術語

动态损失缩放

损失缩放的自适应变体，其中缩放因子在训练过程中动态调整，在稳定时增加，在溢出时减少，以优化收敛性。

📖

術語

主权重

在混合精度训练期间以FP32（或FP64）维护的模型权重副本，作为权重更新的精度参考，而前向/反向传播计算在FP16中执行。

📖

術語

自动混合精度（AMP）

AI框架（PyTorch、TensorFlow）的功能，自动选择在FP16或FP32中执行的操作，管理类型转换，并以透明方式应用损失缩放。

📖

術語

向量处理单元（VPU）

专为整数精度（INT8）和低精度计算优化的专用硬件加速器，设计用于在边缘设备上高效进行神经网络推理。

📖

術語

稀疏性加速

结合混合精度的技术，利用张量中的零值跳过不必要的计算，减少内存带宽需求并提高矩阵运算的有效吞吐量。

📖

術語

数值稳定性分析

系统评估精度降低对模型收敛性和最终精度的影响，识别在混合精度策略中需要保持FP32精度的敏感层。

📖

術語

FP8（8位浮点数）

新兴的8位表示格式，具有不同变体（E4M3、E5M2），针对训练和推理进行优化，为超大型模型提供吞吐量与精度之间的极致平衡。

📖

術語

混合精度中的梯度累积

在权重更新前，将FP16计算的梯度累积到FP32缓冲区中的技术，防止在多个小批次聚合时精度损失。

📖

術語

精度感知剪枝

考虑每层对精度降低敏感度的网络剪枝方法，在低精度下鲁棒性强的层上应用更激进的剪枝以最大化加速效果。

AI 詞彙表