Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
CUDA
Architecture de calcul parallèle et interface de programmation créée par NVIDIA, permettant aux développeurs d'utiliser les GPU pour des calculs généraux via des extensions au langage C/C++.
Tensor Core
Unités de calcul spécialisées intégrées dans les GPU NVIDIA modernes, conçues pour accélérer de manière exponentielle les opérations de multiplication et d'addition de matrices, fondamentales pour les réseaux de neurones profonds.
ROCm
Plateforme de calcul open source pour les GPU AMD, offrant un écosystème complet de langages de programmation (HIP), de bibliothèques (MIOpen) et d'outils pour le calcul haute performance et l'IA.
OpenCL
Norme ouverte pour l'écriture de programmes s'exécutant sur des plateformes hétérogènes, incluant les CPU, GPU et autres processeurs, en définissant un langage basé sur C99 et des API pour la gestion des périphériques.
cuDNN
Bibliothèque GPU accélérée de primitives pour les réseaux de neurones profonds, développée par NVIDIA, fournissant des implémentations hautement optimisées pour les routines de convolution, de pooling et de normalisation.
Memory Bandwidth
Débit de données maximal entre le GPU et sa mémoire vidéo (VRAM), mesuré en GB/s, constituant un facteur critique pour la performance des calculs intensifs et l'entraînement de grands modèles d'IA.
Kernel
Fonction principale exécutée sur le GPU dans un programme de calcul parallèle, lancée sur une grille de threads et conçue pour traiter une portion spécifique des données de manière simultanée.
Warp
Groupe de 32 threads exécutés en mode SIMT (Single Instruction, Multiple Thread) sur les GPU NVIDIA, partageant le même flux d'instructions et constituant l'unité de scheduling de base pour l'exécution parallèle.
Stream Multiprocessor (SM)
Unité de calcul de base sur un GPU NVIDIA, contenant des cœurs, des unités de mémoire partagée et des schedulers, capable d'exécuter simultanément plusieurs blocs de threads et de gérer leur exécution.
Shared Memory
Espace mémoire rapide et de faible latence, partagé entre les threads d'un même bloc sur un GPU, permettant la collaboration et la réduction des accès à la mémoire globale globale, beaucoup plus lente.
Unified Memory
Technologie de gestion de mémoire qui crée un espace d'adressage unique entre le CPU et le GPU, éliminant le besoin de copies explicites de données et simplifiant le développement d'applications hétérogènes.
NVLink
Technologie d'interconnexion à haute bande passante développée par NVIDIA, permettant une communication directe et rapide entre plusieurs GPU, surpassant les limites du bus PCIe pour les calculs distribués.
FP16 (Half-Precision)
Format de nombre à virgule flottante sur 16 bits, utilisé pour accélérer les calculs et réduire l'empreinte mémoire dans les réseaux de neurones, au prix d'une légère perte de précision souvent acceptable.
CUDA Graphs
Technologie permettant de capturer une séquence entière d'opérations CUDA dans un graphe, puis de la réexécuter avec une surcharge minimale, réduisant les coûts de lancement de noyaux pour les charges de travail répétitives.
HIP
API de programmation et langage de compilation développé par AMD, conçu comme une alternative portable à CUDA, permettant de migrer plus facilement le code CUDA vers les GPU AMD.
MIOpen
Bibliothèque d'optimisation pour les réseaux de neurones profonds sur la plateforme ROCm d'AMD, fournissant des implémentations performantes pour les couches de convolution, de pooling et de normalisation.
Compute Capability
Numéro de version décrivant les caractéristiques et fonctionnalités d'un GPU NVIDIA, incluant le nombre de cœurs, l'architecture, les instructions supportées et les capacités de calcul, essentiel pour la compatibilité logicielle.
Coalesced Memory Access
Optimisation d'accès mémoire où les threads adjacents dans un warp accèdent à des emplacements mémoire contigus, permettant de combiner ces requêtes en une seule transaction mémoire large et efficace.