HPC内存优化 - AI 术语表

📖

个术语

内存合并

GPU上的优化技术，将线程的连续内存访问合并为单一事务，减少内存带宽使用并提高吞吐量。

📖

个术语

缓存分块

将数据分割成适合缓存大小的块，以最大化本地数据重用并最小化缓存未命中的策略。

📖

个术语

NUMA感知分配

考虑非统一内存访问架构的内存分配方法，将数据放置在频繁使用它们的核心附近，减少访问延迟。

📖

个术语

内存池

预分配大块内存并细分为可重用对象，消除频繁动态分配/释放的开销。

📖

个术语

零拷贝优化

允许操作直接访问数据而无需在内存空间之间进行中间复制的技术，减少CPU消耗和带宽使用。

📖

个术语

寄存器平铺

使用处理器寄存器临时存储数据块，最小化对较慢的层次内存的访问。

📖

个术语

预取指令

在数据实际使用前预先将其加载到缓存中的特殊指令，通过计算/访问重叠来掩盖内存延迟。

📖

个术语

内存占用减少

一系列技术（量化、剪枝、压缩），旨在减少AI模型的内存大小而不会显著降低性能。

📖

个术语

共享内存利用

优化GPU共享内存的使用，作为同一块内线程之间快速可重用的数据空间

📖

个术语

内存带宽饱和

内存访问请求超过内存总线容量的状态，成为计算性能的主要瓶颈

📖

个术语

页面迁移

根据访问模式在NUMA节点之间动态移动内存页面，以优化数据局部性

📖

个术语

内存感知调度

考虑内存约束和访问模式的任务调度，以最小化争用并最大化并行性

📖

个术语

缓存无关算法

设计用于在任何缓存层次结构上高效执行的算法，无需特定缓存大小参数

📖

个术语

内存层次结构优化

根据数据访问频率和时间关键性，在内存层次结构各层间进行数据放置的全局策略

📖

个术语

张量核心内存布局

为最大化NVIDIA张量核心上矩阵运算效率而设计的张量内存特定组织方式

📖

个术语

内存访问发散

GPU warp中的线程访问非连续内存地址的现象，通过串行化访问降低性能

📖

个术语

HBM（高带宽内存）集成

提供更高带宽的3D堆叠内存架构，适用于密集型AI工作负载，并针对访问模式进行了特定优化。

📖

个术语

内存映射I/O优化

允许外设直接访问系统内存的技术，减少AI流水线中的数据复制和CPU开销。

AI 词汇表