GPU 内核优化 - AI 术语表

📖

个术语

线程发散

同一warp中的线程执行不同路径的现象，导致分支串行化并显著降低GPU上的并行性能。

📖

个术语

共享内存存储体冲突

当同一warp中的多个线程同时尝试访问共享内存的同一存储体时发生的争用，导致访问串行化。

📖

个术语

Warp调度

GPU调度器的机制，优化warp的调度以最大化计算单元利用率并掩盖内存延迟。

📖

个术语

寄存器溢出

当寄存器不足时，编译器必须将数据从寄存器移动到（较慢的）本地内存的现象，显著降低性能。

📖

个术语

指令吞吐量

每个时钟周期可以执行的指令数量的度量，通过优先使用原生算术运算和避免复杂指令来优化。

📖

个术语

网格步幅循环

每个线程处理由网格总大小分隔的多个元素的循环模式，允许处理比线程网格更大的数据集。

📖

个术语

循环展开

通过复制循环体来消除循环迭代的优化技术，减少循环控制开销并增加指令级并行性。

📖

个术语

内存延迟隐藏

启动足够多的warp的策略，使得GPU可以在其他warp等待内存访问时切换到准备好的warp。

📖

个术语

向量内存操作

在全局内存和寄存器之间同时传输多个数据（float2、float4）的指令，提高有效带宽。

📖

个术语

协作组

CUDA API，允许在传统块边界之外进行灵活、集体的线程同步，优化复杂通信模式。

📖

个术语

纹理内存缓存

利用纹理内存及其针对空间访问优化的缓存，特别适用于具有二维局部性的访问模式。

📖

个术语

原子操作优化

减少原子操作竞争的技术，包括使用共享内存进行本地聚合后再进行全局更新。

📖

个术语

内核启动开销

与GPU内核启动相关的时间成本，通过将多个小内核合并为单个更大内核或使用动态并行性来最小化。

📖

个术语

工作分配平衡

优化线程间工作分配，避免负载不均衡导致某些线程比其他线程提前很多完成。

📖

个术语

预取策略

在使用数据之前将其预加载到共享内存中的前瞻性技术，从而掩盖全局内存访问的延迟。

AI 词汇表