BenchVibe AI Ecosystem

VIP 👤

🏠 Accueil

基準測試

📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction

Modèles

🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code

Ressources

💬 Prompts IA 📖 人工智能詞彙表 🔗 Liens Utiles

AI 詞彙表

人工智能完整詞典

200

類別

2,608

子類別

30,011

術語

线程发散

同一warp中的线程执行不同路径的现象，导致分支串行化并显著降低GPU上的并行性能。

共享内存存储体冲突

当同一warp中的多个线程同时尝试访问共享内存的同一存储体时发生的争用，导致访问串行化。

Warp调度

GPU调度器的机制，优化warp的调度以最大化计算单元利用率并掩盖内存延迟。

寄存器溢出

当寄存器不足时，编译器必须将数据从寄存器移动到（较慢的）本地内存的现象，显著降低性能。

指令吞吐量

每个时钟周期可以执行的指令数量的度量，通过优先使用原生算术运算和避免复杂指令来优化。

网格步幅循环

每个线程处理由网格总大小分隔的多个元素的循环模式，允许处理比线程网格更大的数据集。

循环展开

通过复制循环体来消除循环迭代的优化技术，减少循环控制开销并增加指令级并行性。

内存延迟隐藏

启动足够多的warp的策略，使得GPU可以在其他warp等待内存访问时切换到准备好的warp。

向量内存操作

在全局内存和寄存器之间同时传输多个数据（float2、float4）的指令，提高有效带宽。

协作组

CUDA API，允许在传统块边界之外进行灵活、集体的线程同步，优化复杂通信模式。

纹理内存缓存

利用纹理内存及其针对空间访问优化的缓存，特别适用于具有二维局部性的访问模式。

原子操作优化

减少原子操作竞争的技术，包括使用共享内存进行本地聚合后再进行全局更新。

内核启动开销

与GPU内核启动相关的时间成本，通过将多个小内核合并为单个更大内核或使用动态并行性来最小化。

工作分配平衡

优化线程间工作分配，避免负载不均衡导致某些线程比其他线程提前很多完成。

预取策略

在使用数据之前将其预加载到共享内存中的前瞻性技术，从而掩盖全局内存访问的延迟。

🔍

搵唔到結果