🏠 Accueil
基準測試
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200
類別
2,608
子類別
30,011
術語
📖
術語

FP16 运算

半精度浮点计算(16位),在张量核心上提供比 FP32 高达 8 倍的吞吐量,同时显著降低内存带宽和能耗。

📖
術語

TensorFloat-32 (TF32)

NVIDIA 混合数字格式,使用 8 位指数(如 FP32)和 10 位尾数(如 FP16),为安培张量核心提供动态范围和精度之间的最佳平衡。

📖
術語

Warp 矩阵乘累加 (WMMA)

CUDA API,允许 32 线程的 warp 高效执行矩阵乘累加操作,直接在张量核心上运行,并访问分片寄存器。

📖
術語

张量核心的 CUDA 内核

专门优化的 GPU 程序,用于利用张量核心指令,使用 WMMA 原语或高级库实现最大矩阵吞吐量。

📖
術語

矩阵分片

将矩阵分割成更小的片段,在 warp 线程间分布,以便在张量核心单元上并行执行,优化计算资源利用率。

📖
術語

张量核心利用率

衡量张量核心执行有用计算周期百分比的指标,对于评估优化效率和识别瓶颈至关重要。

📖
術語

推理的 INT8 量化

将神经网络权重和激活转换为 8 位整数,在张量核心上实现高达 32 倍加速,同时控制精度损失。

📖
術語

CublasLt 张量核心库

CUBLAS 库的扩展,专为张量核心优化,提供高性能的 GEMM(通用矩阵乘法)例程,并原生支持混合精度格式。

📖
術語

共享内存分块

在GPU共享内存中组织数据为最优分块的策略,以便Tensor Core访问,最小化存储体冲突并最大化带宽。

📖
術語

Warp级矩阵调度

在warp级别调度矩阵操作以最大化Tensor Core流水线利用率,同时考虑延迟和数据依赖性。

📖
術語

Tensor Core寄存器压力

受限于每个SM的寄存器数量有限,影响Tensor Core操作的并行化能力,需要在占用率和单元有效利用之间取得平衡。

📖
術語

深度学习基准测试

如MLPerf等测试套件,评估Tensor Core优化在真实神经网络训练和推理工作负载上的性能表现。

📖
術語

自动混合精度(AMP)

自动选择运算精度的技术,识别符合条件的Tensor Core操作,并保留FP32副本以确保数值稳定性。

📖
術語

Tensor Core内存合并

优化内存访问以对齐Tensor Core的访问模式,将事务合并为连续访问以最大化吞吐量。

📖
術語

稀疏矩阵支持

Ampere架构Tensor Core有效处理结构化稀疏矩阵的能力,为具有稀疏性的神经网络提供高达2倍的加速。

🔍

搵唔到結果