AI 詞彙表
人工智能完整詞典
FP16 运算
半精度浮点计算(16位),在张量核心上提供比 FP32 高达 8 倍的吞吐量,同时显著降低内存带宽和能耗。
TensorFloat-32 (TF32)
NVIDIA 混合数字格式,使用 8 位指数(如 FP32)和 10 位尾数(如 FP16),为安培张量核心提供动态范围和精度之间的最佳平衡。
Warp 矩阵乘累加 (WMMA)
CUDA API,允许 32 线程的 warp 高效执行矩阵乘累加操作,直接在张量核心上运行,并访问分片寄存器。
张量核心的 CUDA 内核
专门优化的 GPU 程序,用于利用张量核心指令,使用 WMMA 原语或高级库实现最大矩阵吞吐量。
矩阵分片
将矩阵分割成更小的片段,在 warp 线程间分布,以便在张量核心单元上并行执行,优化计算资源利用率。
张量核心利用率
衡量张量核心执行有用计算周期百分比的指标,对于评估优化效率和识别瓶颈至关重要。
推理的 INT8 量化
将神经网络权重和激活转换为 8 位整数,在张量核心上实现高达 32 倍加速,同时控制精度损失。
CublasLt 张量核心库
CUBLAS 库的扩展,专为张量核心优化,提供高性能的 GEMM(通用矩阵乘法)例程,并原生支持混合精度格式。
共享内存分块
在GPU共享内存中组织数据为最优分块的策略,以便Tensor Core访问,最小化存储体冲突并最大化带宽。
Warp级矩阵调度
在warp级别调度矩阵操作以最大化Tensor Core流水线利用率,同时考虑延迟和数据依赖性。
Tensor Core寄存器压力
受限于每个SM的寄存器数量有限,影响Tensor Core操作的并行化能力,需要在占用率和单元有效利用之间取得平衡。
深度学习基准测试
如MLPerf等测试套件,评估Tensor Core优化在真实神经网络训练和推理工作负载上的性能表现。
自动混合精度(AMP)
自动选择运算精度的技术,识别符合条件的Tensor Core操作,并保留FP32副本以确保数值稳定性。
Tensor Core内存合并
优化内存访问以对齐Tensor Core的访问模式,将事务合并为连续访问以最大化吞吐量。
稀疏矩阵支持
Ampere架构Tensor Core有效处理结构化稀疏矩阵的能力,为具有稀疏性的神经网络提供高达2倍的加速。