Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
FP16 Operations
Calculs en virgule flottante de demi-précision (16 bits) offrant jusqu'à 8x plus de débit que FP32 sur les Tensor Cores, avec réduction significative de la bande passante mémoire et de la consommation énergétique.
TensorFloat-32 (TF32)
Format numérique hybride NVIDIA utilisant 8 bits d'exposant (comme FP32) et 10 bits de mantisse (comme FP16), offrant un compromis optimal entre plage dynamique et précision pour les Tensor Cores Ampere.
Warp Matrix Multiply-Accumulate (WMMA)
API CUDA permettant aux warps de 32 threads d'effectuer efficacement des opérations de multiplication-accumulation matricielle directement sur les Tensor Cores avec accès aux registres fragmentés.
CUDA Kernels for Tensor Cores
Programmes GPU spécifiquement optimisés pour exploiter les instructions Tensor Core, utilisant les primitives WMMA ou les librairies de haut niveau pour un débit matriciel maximal.
Matrix Fragmentation
Technique de partitionnement des matrices en fragments plus petits distribués entre les threads d'un warp pour exécution parallèle sur les unités Tensor Core, optimisant l'utilisation des ressources de calcul.
Tensor Core Utilization
Métrique mesurant le pourcentage de cycles où les Tensor Cores effectuent des calculs utiles, crucial pour évaluer l'efficacité des optimisations et identifier les goulots d'étranglement.
INT8 Quantization for Inference
Conversion des poids et activations de réseaux de neurones en entiers 8 bits, permettant jusqu'à 32x d'accélération sur les Tensor Cores avec dégradation contrôlée de la précision.
CublasLt Tensor Core Library
Extension de la librairie CUBLAS optimisée pour les Tensor Cores, offrant des routines GEMM (General Matrix Multiply) performantes avec support natif des formats混合精度.
Shared Memory Tiling
Stratégie d'organisation des données dans la mémoire partagée GPU en tuiles optimales pour l'accès aux Tensor Cores, minimisant les conflits de banque et maximisant la bande passante.
Warp-level Matrix Scheduling
Ordonnancement des opérations matricielles au niveau des warps pour maximiser l'utilisation des pipelines Tensor Core, tenant compte des latences et des dépendances de données.
Tensor Core Register Pressure
Contrainte liée au nombre limité de registres par SM, affectant la capacité à paralléliser les opérations Tensor Core et nécessitant un équilibre entre occupation et utilisation efficace des unités.
Deep Learning Benchmarks
Suites de tests comme MLPerf évaluant les performances des optimisations Tensor Core sur des charges de travail réelles d'entraînement et d'inférence de réseaux de neurones.
Automatic Mixed Precision (AMP)
Technique automatique de sélection de précision opératoire qui identifie les opérations Tensor Core éligibles et maintient des copies FP32 pour la stabilité numérique.
Tensor Core Memory Coalescing
Optimisation des accès mémoire pour s'aligner sur les patterns d'accès des Tensor Cores, regroupant les transactions en accès contigus pour maximiser le débit.
Sparse Matrix Support
Capacité des Tensor Cores Ampere à traiter efficacement des matrices structurées creuses, offrant jusqu'à 2x d'accélération pour les réseaux de neurones avec sparsité.