🏠 首页
基准测试
📊 所有基准测试 🦖 恐龙 v1 🦖 恐龙 v2 ✅ 待办事项应用 🎨 创意自由页面 🎯 FSACB - 终极展示 🌍 翻译基准测试
模型
🏆 前 10 名模型 🆓 免费模型 📋 所有模型 ⚙️ 🛠️ 千行代码模式
资源
💬 💬 提示库 📖 📖 AI 词汇表 🔗 🔗 有用链接

AI 词汇表

人工智能完整词典

200
个类别
2,608
个子类别
30,011
个术语
📖
个术语

FP16 运算

半精度浮点计算(16位),在张量核心上提供比 FP32 高达 8 倍的吞吐量,同时显著降低内存带宽和能耗。

📖
个术语

TensorFloat-32 (TF32)

NVIDIA 混合数字格式,使用 8 位指数(如 FP32)和 10 位尾数(如 FP16),为安培张量核心提供动态范围和精度之间的最佳平衡。

📖
个术语

Warp 矩阵乘累加 (WMMA)

CUDA API,允许 32 线程的 warp 高效执行矩阵乘累加操作,直接在张量核心上运行,并访问分片寄存器。

📖
个术语

张量核心的 CUDA 内核

专门优化的 GPU 程序,用于利用张量核心指令,使用 WMMA 原语或高级库实现最大矩阵吞吐量。

📖
个术语

矩阵分片

将矩阵分割成更小的片段,在 warp 线程间分布,以便在张量核心单元上并行执行,优化计算资源利用率。

📖
个术语

张量核心利用率

衡量张量核心执行有用计算周期百分比的指标,对于评估优化效率和识别瓶颈至关重要。

📖
个术语

推理的 INT8 量化

将神经网络权重和激活转换为 8 位整数,在张量核心上实现高达 32 倍加速,同时控制精度损失。

📖
个术语

CublasLt 张量核心库

CUBLAS 库的扩展,专为张量核心优化,提供高性能的 GEMM(通用矩阵乘法)例程,并原生支持混合精度格式。

📖
个术语

共享内存分块

在GPU共享内存中组织数据为最优分块的策略,以便Tensor Core访问,最小化存储体冲突并最大化带宽。

📖
个术语

Warp级矩阵调度

在warp级别调度矩阵操作以最大化Tensor Core流水线利用率,同时考虑延迟和数据依赖性。

📖
个术语

Tensor Core寄存器压力

受限于每个SM的寄存器数量有限,影响Tensor Core操作的并行化能力,需要在占用率和单元有效利用之间取得平衡。

📖
个术语

深度学习基准测试

如MLPerf等测试套件,评估Tensor Core优化在真实神经网络训练和推理工作负载上的性能表现。

📖
个术语

自动混合精度(AMP)

自动选择运算精度的技术,识别符合条件的Tensor Core操作,并保留FP32副本以确保数值稳定性。

📖
个术语

Tensor Core内存合并

优化内存访问以对齐Tensor Core的访问模式,将事务合并为连续访问以最大化吞吐量。

📖
个术语

稀疏矩阵支持

Ampere架构Tensor Core有效处理结构化稀疏矩阵的能力,为具有稀疏性的神经网络提供高达2倍的加速。

🔍

未找到结果