Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
TF32 (TensorFloat-32)
Format hybride propriétaire NVIDIA sur 19 bits combinant 8 bits d'exposant de FP16 et 10 bits de mantisse de FP32, optimisé pour les opérations matricielles sur les Tensor Cores des GPU Ampere et Hopper.
Dynamic Range
Plage de valeurs représentables entre le plus petit nombre normalisé et le plus grand nombre flottant, critique dans le choix de la précision car FP16 a une plage dynamique limitée (65504) comparée à FP32 (3.4×10³⁸).
Post-Training Quantization (PTQ)
Processus de conversion d'un modèle pré-entraîné en précision complète vers une précision réduite (FP16, INT8, INT4) sans réentraînement, utilisant des techniques de calibration pour déterminer les facteurs d'échelle et de biais optimaux.
Fused Multiply-Add (FMA)
Opération matérielle combinant multiplication et addition en une seule instruction (a×b+c) avec arrondi unique, fondamentale pour l'accélération des calculs matriciels en précision mixte et réduisant les erreurs d'arrondi cumulatives.
Numerical Stability
Propriété d'un algorithme à maintenir la précision des calculs face aux erreurs d'arrondi et overflow/underflow, particulièrement critique en précision mixte où la gamme dynamique réduite peut déstabiliser certains calculs.
INT8 Quantization
Technique de compression des poids et activations neuronales sur 8 bits entiers signés (-128 à 127) avec facteurs d'échelle et zéro-points, offrant jusqu'à 4x réduction mémoire et accélération significative sur matériel compatible.
Precision Matrix Operations
Ensemble d'opérations linéaires (GEMM, convolution) où différentes parties du calcul utilisent différentes précisions - typiquement accumulation en FP32 avec multiplication en FP16/BF16 pour optimiser le débit sur GPU modernes.