GPU内存管理 - AI 术语表

📖

个术语

Memory Registers

每个SM（流多处理器）线程的最快速私有内存，用于存储局部变量，访问延迟为一个时钟周期。

📖

个术语

Memory Thrashing

非优化内存访问导致的性能下降现象，产生高缓存未命中率和内存存储体冲突率。

📖

个术语

Memory Bank Conflicts

同时访问同一共享内存存储体中不同位置的竞争，导致访问串行化和性能降低。

📖

个术语

Asynchronous Memory Transfer

通过CUDA流与内核计算并行执行的CPU-GPU数据传输，隐藏内存延迟并优化GPU利用率。

📖

个术语

Memory Alignment

将数据结构对齐到特定字节边界（128、256、512位），以确保合并和最大化的内存事务。

📖

个术语

Zero-Copy Memory

允许GPU直接访问主机内存而无需复制的技术，使用内存映射来减少内存消耗和传输时间。

📖

个术语

CUDA Streams

在GPU上按顺序执行的操作序列，支持任务并行和计算-传输重叠，以优化资源利用率。

📖

个术语

Memory Pool

预分配GPU内存块用于快速分配/释放，减少执行期间的碎片化和动态分配开销。

📖

个术语

内存预取

在数据实际使用前将其预加载到GPU缓存中，掩盖内存延迟并提高指令-数据并行性。

📖

个术语

内存分页

CPU和GPU之间的内存页面管理，涉及按需迁移和基于使用情况的驱逐，以优化有限的GPU内存使用。

📖

个术语

CUDA统一虚拟寻址

将主机和设备内存结合的统一虚拟地址空间，允许在CPU和GPU之间进行透明传输和有效指针操作。

📖

个术语

内存占用率

受内存使用影响的每个SM的活动warp比例，决定可实现的并行级别和GPU资源使用效率。

AI 词汇表