Glossaire IA
Le dictionnaire complet de l'Intelligence Artificielle
Quantification Consciente de la Quantification (QAT)
Méthode d'optimisation où la simulation de la quantification basse précision est intégrée durant l'entraînement, permettant au modèle d'adapter ses poids pour minimiser la perte de performance induite par la quantification.
Matérialisation de Faible Rang (LoRA)
Méthode d'adaptation efficace qui gèle les poids d'un modèle pré-entraîné et injecte de petites matrices de faible rang décomposables, réduisant drastiquement le nombre de paramètres entraînables pour le fine-tuning tout en préservant les performances.
Représentation 8-bit Flottante (FP8)
Format de données numériques à très faible précision utilisant 8 bits pour représenter des nombres à virgule flottante, permettant des accélérations significatives sur les GPU modernes tout en maintenant la stabilité de l'entraînement des grands modèles.
Quantification 4-bit Entière (INT4)
Technique de compression extrême représentant les poids du modèle sur 4 bits, nécessitant des algorithmes de quantification avancés et souvent une ré-entraînement partiel pour compenser la perte d'information significative.
Compensation de Biais de Quantification (Q-Bias)
Technique d'ajustement post-quantification qui analyse et corrige systématiquement les biais introduits par la réduction de précision, souvent en modifiant les couches de normalisation ou les biais des couches linéaires.
Optimisation par Recherche de Grille de Quantification
Méthode d'exploration systématique de différentes configurations de quantification (par couche, par groupe, mixte) pour identifier le schéma optimal offrant le meilleur équilibre entre taille de modèle, vitesse et précision pour une architecture donnée.
Inférence Spécifique (Speculative Inference)
Technique d'accélération de l'inférence générative où un petit modèle 'draft' propose rapidement plusieurs tokens, qui sont ensuite validés en parallèle par le grand modèle cible, réduisant le nombre total d'étapes de calcul coûteuses.
Décomposition en Valeurs Singulières Tronquée (Truncated SVD)
Application de la décomposition SVD suivie d'une troncature des plus petites valeurs singulières pour approximer une matrice de poids par une somme de rang inférieur, réduisant ainsi les paramètres et le calcul avec une erreur contrôlée.
Quantification par Blocs (Block-wise Quantization)
Stratégie de quantification qui divise les tenseurs de poids en blocs plus petits et applique une quantification indépendante à chaque bloc, préservant mieux la distribution des valeurs et réduisant l'erreur globale par rapport à la quantification globale.
Poids Structurés Épars (Structured Sparsity)
Forme d'élagage qui impose des schémas de régularité (par ligne, colonne ou bloc) sur les poids supprimés, permettant d'exploiter efficacement les accélérations matérielles sur les CPU/GPU contrairement à la sparsité non structurée aléatoire.