AI 词汇表
人工智能完整词典
200
个类别
2,608
个子类别
30,011
个术语
个术语
线程发散
同一warp中的线程执行不同路径的现象,导致分支串行化并显著降低GPU上的并行性能。
个术语
共享内存存储体冲突
当同一warp中的多个线程同时尝试访问共享内存的同一存储体时发生的争用,导致访问串行化。
个术语
Warp调度
GPU调度器的机制,优化warp的调度以最大化计算单元利用率并掩盖内存延迟。
个术语
寄存器溢出
当寄存器不足时,编译器必须将数据从寄存器移动到(较慢的)本地内存的现象,显著降低性能。
个术语
指令吞吐量
每个时钟周期可以执行的指令数量的度量,通过优先使用原生算术运算和避免复杂指令来优化。
个术语
网格步幅循环
每个线程处理由网格总大小分隔的多个元素的循环模式,允许处理比线程网格更大的数据集。
个术语
循环展开
通过复制循环体来消除循环迭代的优化技术,减少循环控制开销并增加指令级并行性。
个术语
内存延迟隐藏
启动足够多的warp的策略,使得GPU可以在其他warp等待内存访问时切换到准备好的warp。
个术语
向量内存操作
在全局内存和寄存器之间同时传输多个数据(float2、float4)的指令,提高有效带宽。
个术语
协作组
CUDA API,允许在传统块边界之外进行灵活、集体的线程同步,优化复杂通信模式。
个术语
纹理内存缓存
利用纹理内存及其针对空间访问优化的缓存,特别适用于具有二维局部性的访问模式。
个术语
原子操作优化
减少原子操作竞争的技术,包括使用共享内存进行本地聚合后再进行全局更新。
个术语
内核启动开销
与GPU内核启动相关的时间成本,通过将多个小内核合并为单个更大内核或使用动态并行性来最小化。
个术语
工作分配平衡
优化线程间工作分配,避免负载不均衡导致某些线程比其他线程提前很多完成。
个术语
预取策略
在使用数据之前将其预加载到共享内存中的前瞻性技术,从而掩盖全局内存访问的延迟。
🔍