CUDA Programming - Glossaire IA

📖

termes

Kernel

Fonction CUDA exécutée sur le GPU par un grand nombre de threads simultanément. Le kernel est lancé depuis le CPU et exécuté en parallèle sur l'appareil GPU avec une configuration de grille et de blocs spécifique.

📖

termes

Thread

Unité d'exécution de base dans CUDA, représentant une seule séquence d'instructions exécutée sur un core de processeur GPU. Les threads sont organisés en blocs et exécutent le même code sur différentes données.

📖

termes

Block

Collection de threads qui peuvent communiquer entre eux via une mémoire partagée et synchroniser leur exécution. Les blocs sont organisés en une grille et s'exécutent sur un même Streaming Multiprocessor (SM).

📖

termes

Grid

Ensemble de blocs de threads qui constituent la configuration d'exécution complète d'un kernel CUDA. La grille représente la structure hiérarchique supérieure de l'organisation des threads dans CUDA.

📖

termes

Warp

Groupe de 32 threads qui s'exécutent simultanément en mode SIMT (Single Instruction Multiple Thread) sur un SM CUDA. Tous les threads d'un warp exécutent la même instruction au même cycle d'horloge.

📖

termes

Shared Memory

Mémoire rapide et de faible taille partagée par tous les threads d'un même bloc, permettant une communication efficace entre threads. La shared memory est beaucoup plus rapide que la mémoire globale mais limitée en taille par bloc.

📖

termes

Global Memory

Mémoire principale accessible par tous les threads et par le CPU, avec une grande capacité mais une latence élevée. La global memory est persistante entre les lancements de kernels et constitue la principale zone de stockage de données.

📖

termes

CUDA Runtime API

Interface de programmation de haut niveau qui simplifie le développement d'applications CUDA en gérant automatiquement l'initialisation, le chargement des modules et la gestion de la mémoire. Elle fournit des fonctions comme cudaMalloc, cudaMemcpy et cudaLaunchKernel.

📖

termes

Stream

Séquence d'opérations exécutées sur le GPU dans un ordre déterminé, permettant d'atteindre le parallélisme entre opérations de calcul et transferts de mémoire. Les streams permettent l'exécution concurrente de kernels et recouvrement de transferts.

📖

termes

Asynchronous Execution

Mode d'exécution CUDA où les opérations retournent immédiatement au CPU sans attendre leur achèvement sur le GPU. L'exécution asynchrone permet de recouvrir calculs et transferts pour maximiser l'utilisation du GPU.

📖

termes

Texture Memory

Mémoire optimisée pour les accès avec localité spatiale 2D ou 3D, avec mise en cache automatique des données. La texture memory est particulièrement efficace pour les traitements d'images et les accès avec peu de cohérence.

📖

termes

Constant Memory

Mémoire en lecture seule optimisée pour les accès broadcast où tous les threads lisent la même valeur simultanément. Elle est particulièrement efficace lorsque tous les threads d'un warp accèdent à la même adresse.

📖

termes

Occupancy

Mesure du ratio entre le nombre de warps actifs et le nombre maximal de warps pouvant être résidents sur un Streaming Multiprocessor. Une occupation élevée ne garantit pas nécessairement de meilleures performances mais aide à masquer la latence.

📖

termes

Atomic Operations

Opérations de lecture-modification-écriture exécutées atomiquement sur la mémoire globale ou partagée, garantissant l'absence de conflits entre threads. Elles sont essentielles pour les reductions et les mises à jour concurrentes de données.

📖

termes

cuBLAS

Bibliothèque CUDA Basic Linear Algebra Subroutines fournissant des implémentations GPU optimisées pour les opérations d'algèbre linéaire de base. cuBLAS accélère significativement les calculs matriciels et vectoriels sur les architectures NVIDIA.

📖

termes

cuFFT

Bibliothèque CUDA Fast Fourier Transform offrant des implémentations GPU haute performance pour les transformations de Fourier discrètes. cuFFT supporte des transformations 1D, 2D et 3D avec différentes précisions et tailles.

Glossaire IA

Kernel

Thread

Block

Grid

Warp

Shared Memory

Global Memory

CUDA Runtime API

Stream

Asynchronous Execution

Texture Memory

Constant Memory

Occupancy

Atomic Operations

cuBLAS

cuFFT

Aucun résultat trouvé