GPU计算用于人工智能

📖

術語

CUDA

由NVIDIA创建的并行计算架构和编程接口，允许开发者通过C/C++语言扩展使用GPU进行通用计算。

📖

術語

Tensor Core

集成在现代NVIDIA GPU中的专用计算单元，旨在指数级加速矩阵乘法和加法运算，这些运算是深度神经网络的基础。

📖

術語

ROCm

AMD GPU的开源计算平台，提供完整的编程语言（HIP）、库（MIOpen）和工具生态系统，用于高性能计算和人工智能。

📖

術語

OpenCL

用于在异构平台上编写程序的开放标准，包括CPU、GPU和其他处理器，定义了基于C99的语言和设备管理API。

📖

術語

cuDNN

由NVIDIA开发的深度神经网络GPU加速基础库，为卷积、池化和归一化等例程提供高度优化的实现。

📖

術語

Memory Bandwidth

GPU与其显存（VRAM）之间的最大数据传输速率，以GB/s为单位，是密集型计算和大型AI模型训练性能的关键因素。

📖

術語

Kernel

在并行计算程序中在GPU上执行的主函数，在网格线程上启动，旨在同时处理特定部分的数据。

📖

術語

Warp

在NVIDIA GPU上以SIMT（单指令多线程）模式执行的32个线程组，共享相同的指令流，是并行执行的基本调度单元。

📖

術語

流多处理器 (SM)

NVIDIA GPU上的基本计算单元，包含核心、共享内存单元和调度器，能够同时执行多个线程块并管理它们的执行。

📖

術語

共享内存

GPU上同一线程块内线程之间共享的快速低延迟内存空间，支持协作并减少对速度慢得多的全局内存的访问。

📖

術語

统一内存

一种内存管理技术，在CPU和GPU之间创建统一的地址空间，消除了显式数据拷贝的需求，简化了异构应用程序的开发。

📖

術語

NVLink

NVIDIA开发的高带宽互连技术，允许多个GPU之间进行直接快速通信，突破了PCIe总线在分布式计算中的限制。

📖

術語

FP16（半精度）

16位浮点数格式，用于加速计算并减少神经网络中的内存占用，代价是精度略有损失，通常可以接受。

📖

術語

CUDA图

一种技术，能够将整个CUDA操作序列捕获到图中，然后以最小开销重新执行，减少重复工作负载的内核启动成本。

📖

術語

HIP

AMD开发的编程API和编译语言，设计为CUDA的可移植替代方案，便于将CUDA代码迁移到AMD GPU。

📖

術語

MIOpen

AMD ROCm平台上用于深度神经网络的优化库，为卷积层、池化层和归一化层提供高性能实现。

📖

術語

计算能力

描述NVIDIA GPU特性和功能的版本号，包括核心数量、架构、支持的指令和计算能力，对软件兼容性至关重要。

📖

術語

合并内存访问

一种内存访问优化技术，当warp中相邻线程访问连续内存位置时，可将这些请求合并为单个高效的大容量内存事务。

AI 詞彙表