张量核心优化 - AI 詞彙表

📖

術語

FP16 运算

半精度浮点计算（16位），在张量核心上提供比 FP32 高达 8 倍的吞吐量，同时显著降低内存带宽和能耗。

📖

術語

TensorFloat-32 (TF32)

NVIDIA 混合数字格式，使用 8 位指数（如 FP32）和 10 位尾数（如 FP16），为安培张量核心提供动态范围和精度之间的最佳平衡。

📖

術語

Warp 矩阵乘累加 (WMMA)

CUDA API，允许 32 线程的 warp 高效执行矩阵乘累加操作，直接在张量核心上运行，并访问分片寄存器。

📖

術語

张量核心的 CUDA 内核

专门优化的 GPU 程序，用于利用张量核心指令，使用 WMMA 原语或高级库实现最大矩阵吞吐量。

📖

術語

矩阵分片

将矩阵分割成更小的片段，在 warp 线程间分布，以便在张量核心单元上并行执行，优化计算资源利用率。

📖

術語

张量核心利用率

衡量张量核心执行有用计算周期百分比的指标，对于评估优化效率和识别瓶颈至关重要。

📖

術語

推理的 INT8 量化

将神经网络权重和激活转换为 8 位整数，在张量核心上实现高达 32 倍加速，同时控制精度损失。

📖

術語

CublasLt 张量核心库

CUBLAS 库的扩展，专为张量核心优化，提供高性能的 GEMM（通用矩阵乘法）例程，并原生支持混合精度格式。

📖

術語

共享内存分块

在GPU共享内存中组织数据为最优分块的策略，以便Tensor Core访问，最小化存储体冲突并最大化带宽。

📖

術語

Warp级矩阵调度

在warp级别调度矩阵操作以最大化Tensor Core流水线利用率，同时考虑延迟和数据依赖性。

📖

術語

Tensor Core寄存器压力

受限于每个SM的寄存器数量有限，影响Tensor Core操作的并行化能力，需要在占用率和单元有效利用之间取得平衡。

📖

術語

深度学习基准测试

如MLPerf等测试套件，评估Tensor Core优化在真实神经网络训练和推理工作负载上的性能表现。

📖

術語

自动混合精度(AMP)

自动选择运算精度的技术，识别符合条件的Tensor Core操作，并保留FP32副本以确保数值稳定性。

📖

術語

Tensor Core内存合并

优化内存访问以对齐Tensor Core的访问模式，将事务合并为连续访问以最大化吞吐量。

📖

術語

稀疏矩阵支持

Ampere架构Tensor Core有效处理结构化稀疏矩阵的能力，为具有稀疏性的神经网络提供高达2倍的加速。

AI 詞彙表