GPU Kernel Optimization

📖

termes

Thread Divergence

Phénomène où des threads d'un même warp empruntent des chemins d'exécution différents, causant une sérialisation des branches et réduisant considérablement les performances parallèles sur GPU.

📖

termes

Shared Memory Bank Conflicts

Contention qui se produit lorsque plusieurs threads du même warp tentent d'accéder simultanément à la même banque mémoire de la shared memory, provoquant une sérialisation des accès.

📖

termes

Warp Scheduling

Mécanisme du scheduler GPU qui optimise l'ordonnancement des warps pour maximiser l'utilisation des unités de calcul et masquer la latence mémoire.

📖

termes

Register Spilling

Phénomène où le compilateur doit déplacer des données des registres vers la mémoire locale (lente) lorsque les registres sont insuffisants, dégradant significativement les performances.

📖

termes

Instruction Throughput

Mesure du nombre d'instructions pouvant être exécutées par cycle d'horloge, optimisée en favorisant les opérations arithmétiques natives et en évitant les instructions complexes.

📖

termes

Grid Stride Loop

Pattern de boucle où chaque thread traite plusieurs éléments espacés par la taille totale de la grid, permettant de traiter des datasets plus grands que la grille de threads.

📖

termes

Loop Unrolling

Technique d'optimisation qui élimine les itérations de boucle en dupliquant le corps, réduisant la surcharge de contrôle de boucle et augmentant le parallélisme au niveau instruction.

📖

termes

Memory Latency Hiding

Stratégie consistant à lancer suffisamment de warps pour que le GPU puisse basculer vers des warps prêts pendant que d'autres attendent des accès mémoire.

📖

termes

Vector Memory Operations

Instructions qui transfèrent plusieurs données simultanément (float2, float4) entre mémoire globale et registres, améliorant la bande passante effective.

📖

termes

Cooperative Groups

API CUDA permettant une synchronisation flexible et collective entre threads au-delà des limites traditionnelles de bloc, optimisant les patterns de communication complexes.

📖

termes

Texture Memory Caching

Utilisation de la mémoire texture avec son cache optimisé pour les accès spatiaux, particulièrement efficace pour les patterns d'accès avec localité 2D.

📖

termes

Atomic Operations Optimization

Techniques pour réduire la contention sur les opérations atomiques, notamment par l'utilisation de la shared memory pour l'agrégation locale avant mise à jour globale.

📖

termes

Kernel Launch Overhead

Coût temporel associé au démarrage d'un kernel GPU, minimisé en fusionnant plusieurs petits kernels en un seul plus gros ou en utilisant dynamic parallelism.

📖

termes

Work Distribution Balance

Optimisation de la répartition du travail entre threads pour éviter le déséquilibre de charge où certains threads terminent beaucoup plus tôt que d'autres.

📖

termes

Prefetching Strategy

Technique anticipative de chargement des données en shared memory avant leur utilisation, masquant ainsi la latence des accès à la mémoire globale.

Glossaire IA

Thread Divergence

Shared Memory Bank Conflicts

Warp Scheduling

Register Spilling

Instruction Throughput

Grid Stride Loop

Loop Unrolling

Memory Latency Hiding

Vector Memory Operations

Cooperative Groups

Texture Memory Caching

Atomic Operations Optimization

Kernel Launch Overhead

Work Distribution Balance

Prefetching Strategy

Aucun résultat trouvé