Quantification

📖

termes

Processus de réduction de la précision numérique des poids et activations d'un modèle IA pour optimiser l'inférence et réduire l'empreinte mémoire.

📖

termes

Quantification 8-bit

Technique de compression réduisant les poids du modèle de 32 bits à 8 bits, offrant un compromis optimal entre performance et précision pour les LLM.

📖

termes

Quantification 4-bit

Méthode de compression extrême réduisant les poids à 4 bits, permettant des gains significatifs en mémoire mais avec une perte potentielle de qualité.

📖

termes

Quantification Post-Entraînement (PTQ)

Technique appliquée après l'entraînement du modèle, convertissant les poids en précision réduite sans nécessiter de réentraînement complet.

📖

termes

Quantification Aware Training (QAT)

Approche d'entraînement simulant les effets de la quantification pendant le processus d'apprentissage pour minimiser la perte de précision.

📖

termes

Quantification Dynamique

Méthode appliquée à l'inférence où les activations sont quantifiées à la volée, offrant flexibilité mais avec overhead computationnel.

📖

termes

Quantification Statique

Approche précalculant les paramètres de quantification avant l'inférence, optimisant la vitesse au détriment de la flexibilité.

📖

termes

Calibration de Quantification

Processus de détermination des paramètres optimaux de quantification (scale, zero-point) à partir d'un échantillon de données représentatives.

📖

termes

GPTQ

Gradient-based Post Training Quantization, technique avancée optimisant itérativement les poids quantifiés pour minimiser l'erreur de reconstruction.

📖

termes

AWQ

Activation-aware Weight Quantization, méthode pondérant l'importance des poids selon l'amplitude des activations correspondantes.

📖

termes

Zero-shot Quantification

Technique ne nécessitant aucune donnée de calibration, utilisant des heuristiques basées sur la distribution des poids pour quantifier le modèle.

📖

termes

Mixed Precision Quantification

Stratégie appliquant différentes précisions de quantification selon les couches du modèle pour optimiser le compromis performance/précision.

📖

termes

Quantification Symétrique

Schéma de quantification où la plage de valeurs est centrée autour de zéro, simplifiant les calculs mais pouvant sous-exploiter la plage dynamique.

📖

termes

Quantification Asymétrique

Approche permettant des plages de valeurs non centrées sur zéro, optimisant l'utilisation de la plage quantifiée pour des distributions asymétriques.

📖

termes

Scale Factor

Paramètre multiplicatif utilisé pour mapper les valeurs continues dans la plage quantifiée, crucial pour la précision de la quantification.

📖

termes

Zero Point

Offset ajouté lors de la quantification asymétrique pour aligner la valeur zéro en virgule flottante avec la représentation quantifiée.

📖

termes

Bruit de Quantification

Erreur introduite par la réduction de précision, se manifestant comme une dégradation des performances du modèle due à l'approximation des poids.

📖

termes

Quantization-aware Fine-tuning

Processus d'ajustement léger post-quantification visant à récupérer la précision perdue pendant la compression du modèle.

📖

termes

SmoothQuant

Technique de quantification égalisant la difficulté de quantification entre poids et activations par transformation mathématique préalable.

📖

termes

LLM.int8()

Méthode spécifique de quantification 8-bit pour grands modèles de langage, combinant décomposition matricielle et quantification hybride.

Glossaire IA

Quantification

Quantification 8-bit

Quantification 4-bit

Quantification Post-Entraînement (PTQ)

Quantification Aware Training (QAT)

Quantification Dynamique

Quantification Statique

Calibration de Quantification

GPTQ

AWQ

Zero-shot Quantification

Mixed Precision Quantification

Quantification Symétrique

Quantification Asymétrique

Scale Factor

Zero Point

Bruit de Quantification

Quantization-aware Fine-tuning

SmoothQuant

LLM.int8()

Aucun résultat trouvé