AI 詞彙表
人工智能完整詞典
CUDA
由NVIDIA创建的并行计算架构和编程接口,允许开发者通过C/C++语言扩展使用GPU进行通用计算。
Tensor Core
集成在现代NVIDIA GPU中的专用计算单元,旨在指数级加速矩阵乘法和加法运算,这些运算是深度神经网络的基础。
ROCm
AMD GPU的开源计算平台,提供完整的编程语言(HIP)、库(MIOpen)和工具生态系统,用于高性能计算和人工智能。
OpenCL
用于在异构平台上编写程序的开放标准,包括CPU、GPU和其他处理器,定义了基于C99的语言和设备管理API。
cuDNN
由NVIDIA开发的深度神经网络GPU加速基础库,为卷积、池化和归一化等例程提供高度优化的实现。
Memory Bandwidth
GPU与其显存(VRAM)之间的最大数据传输速率,以GB/s为单位,是密集型计算和大型AI模型训练性能的关键因素。
Kernel
在并行计算程序中在GPU上执行的主函数,在网格线程上启动,旨在同时处理特定部分的数据。
Warp
在NVIDIA GPU上以SIMT(单指令多线程)模式执行的32个线程组,共享相同的指令流,是并行执行的基本调度单元。
流多处理器 (SM)
NVIDIA GPU上的基本计算单元,包含核心、共享内存单元和调度器,能够同时执行多个线程块并管理它们的执行。
共享内存
GPU上同一线程块内线程之间共享的快速低延迟内存空间,支持协作并减少对速度慢得多的全局内存的访问。
统一内存
一种内存管理技术,在CPU和GPU之间创建统一的地址空间,消除了显式数据拷贝的需求,简化了异构应用程序的开发。
NVLink
NVIDIA开发的高带宽互连技术,允许多个GPU之间进行直接快速通信,突破了PCIe总线在分布式计算中的限制。
FP16(半精度)
16位浮点数格式,用于加速计算并减少神经网络中的内存占用,代价是精度略有损失,通常可以接受。
CUDA图
一种技术,能够将整个CUDA操作序列捕获到图中,然后以最小开销重新执行,减少重复工作负载的内核启动成本。
HIP
AMD开发的编程API和编译语言,设计为CUDA的可移植替代方案,便于将CUDA代码迁移到AMD GPU。
MIOpen
AMD ROCm平台上用于深度神经网络的优化库,为卷积层、池化层和归一化层提供高性能实现。
计算能力
描述NVIDIA GPU特性和功能的版本号,包括核心数量、架构、支持的指令和计算能力,对软件兼容性至关重要。
合并内存访问
一种内存访问优化技术,当warp中相邻线程访问连续内存位置时,可将这些请求合并为单个高效的大容量内存事务。