🏠 Accueil
Benchmarks
📊 Tous les Benchmarks 🦖 Dinosaure v1 🦖 Dinosaure v2 ✅ To-Do List Apps 🎨 Pages Libres 🎯 FSACB - Showcase 🌍 Traduction
Modèles
🏆 Top 10 Modèles 🆓 Modèles Gratuits 📋 Tous les Modèles ⚙️ Modes Kilo Code
Ressources
💬 Prompts IA 📖 Glossaire IA 🔗 Liens Utiles

Glossaire IA

Le dictionnaire complet de l'Intelligence Artificielle

242
catégories
3 353
sous-catégories
40 780
termes
📖
termes

TF32 (TensorFloat-32)

Format hybride propriétaire NVIDIA sur 19 bits combinant 8 bits d'exposant de FP16 et 10 bits de mantisse de FP32, optimisé pour les opérations matricielles sur les Tensor Cores des GPU Ampere et Hopper.

📖
termes

Dynamic Range

Plage de valeurs représentables entre le plus petit nombre normalisé et le plus grand nombre flottant, critique dans le choix de la précision car FP16 a une plage dynamique limitée (65504) comparée à FP32 (3.4×10³⁸).

📖
termes

Post-Training Quantization (PTQ)

Processus de conversion d'un modèle pré-entraîné en précision complète vers une précision réduite (FP16, INT8, INT4) sans réentraînement, utilisant des techniques de calibration pour déterminer les facteurs d'échelle et de biais optimaux.

📖
termes

Fused Multiply-Add (FMA)

Opération matérielle combinant multiplication et addition en une seule instruction (a×b+c) avec arrondi unique, fondamentale pour l'accélération des calculs matriciels en précision mixte et réduisant les erreurs d'arrondi cumulatives.

📖
termes

Numerical Stability

Propriété d'un algorithme à maintenir la précision des calculs face aux erreurs d'arrondi et overflow/underflow, particulièrement critique en précision mixte où la gamme dynamique réduite peut déstabiliser certains calculs.

📖
termes

INT8 Quantization

Technique de compression des poids et activations neuronales sur 8 bits entiers signés (-128 à 127) avec facteurs d'échelle et zéro-points, offrant jusqu'à 4x réduction mémoire et accélération significative sur matériel compatible.

📖
termes

Precision Matrix Operations

Ensemble d'opérations linéaires (GEMM, convolution) où différentes parties du calcul utilisent différentes précisions - typiquement accumulation en FP32 avec multiplication en FP16/BF16 pour optimiser le débit sur GPU modernes.

🔍

Aucun résultat trouvé