Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Quantification
Processus de réduction de la précision numérique des poids et activations d'un modèle IA pour optimiser l'inférence et réduire l'empreinte mémoire.
Quantification 8-bit
Technique de compression réduisant les poids du modèle de 32 bits à 8 bits, offrant un compromis optimal entre performance et précision pour les LLM.
Quantification 4-bit
Méthode de compression extrême réduisant les poids à 4 bits, permettant des gains significatifs en mémoire mais avec une perte potentielle de qualité.
Quantification Post-Entraînement (PTQ)
Technique appliquée après l'entraînement du modèle, convertissant les poids en précision réduite sans nécessiter de réentraînement complet.
Quantification Aware Training (QAT)
Approche d'entraînement simulant les effets de la quantification pendant le processus d'apprentissage pour minimiser la perte de précision.
Quantification Dynamique
Méthode appliquée à l'inférence où les activations sont quantifiées à la volée, offrant flexibilité mais avec overhead computationnel.
Quantification Statique
Approche précalculant les paramètres de quantification avant l'inférence, optimisant la vitesse au détriment de la flexibilité.
Calibration de Quantification
Processus de détermination des paramètres optimaux de quantification (scale, zero-point) à partir d'un échantillon de données représentatives.
GPTQ
Gradient-based Post Training Quantization, technique avancée optimisant itérativement les poids quantifiés pour minimiser l'erreur de reconstruction.
AWQ
Activation-aware Weight Quantization, méthode pondérant l'importance des poids selon l'amplitude des activations correspondantes.
Zero-shot Quantification
Technique ne nécessitant aucune donnée de calibration, utilisant des heuristiques basées sur la distribution des poids pour quantifier le modèle.
Mixed Precision Quantification
Stratégie appliquant différentes précisions de quantification selon les couches du modèle pour optimiser le compromis performance/précision.
Quantification Symétrique
Schéma de quantification où la plage de valeurs est centrée autour de zéro, simplifiant les calculs mais pouvant sous-exploiter la plage dynamique.
Quantification Asymétrique
Approche permettant des plages de valeurs non centrées sur zéro, optimisant l'utilisation de la plage quantifiée pour des distributions asymétriques.
Scale Factor
Paramètre multiplicatif utilisé pour mapper les valeurs continues dans la plage quantifiée, crucial pour la précision de la quantification.
Zero Point
Offset ajouté lors de la quantification asymétrique pour aligner la valeur zéro en virgule flottante avec la représentation quantifiée.
Bruit de Quantification
Erreur introduite par la réduction de précision, se manifestant comme une dégradation des performances du modèle due à l'approximation des poids.
Quantization-aware Fine-tuning
Processus d'ajustement léger post-quantification visant à récupérer la précision perdue pendant la compression du modèle.
SmoothQuant
Technique de quantification égalisant la difficulté de quantification entre poids et activations par transformation mathématique préalable.
LLM.int8()
Méthode spécifique de quantification 8-bit pour grands modèles de langage, combinant décomposition matricielle et quantification hybride.