Quantification et Optimisation

📖

termes

Quantification Consciente de la Quantification (QAT)

Méthode d'optimisation où la simulation de la quantification basse précision est intégrée durant l'entraînement, permettant au modèle d'adapter ses poids pour minimiser la perte de performance induite par la quantification.

📖

termes

Matérialisation de Faible Rang (LoRA)

Méthode d'adaptation efficace qui gèle les poids d'un modèle pré-entraîné et injecte de petites matrices de faible rang décomposables, réduisant drastiquement le nombre de paramètres entraînables pour le fine-tuning tout en préservant les performances.

📖

termes

Représentation 8-bit Flottante (FP8)

Format de données numériques à très faible précision utilisant 8 bits pour représenter des nombres à virgule flottante, permettant des accélérations significatives sur les GPU modernes tout en maintenant la stabilité de l'entraînement des grands modèles.

📖

termes

Quantification 4-bit Entière (INT4)

Technique de compression extrême représentant les poids du modèle sur 4 bits, nécessitant des algorithmes de quantification avancés et souvent une ré-entraînement partiel pour compenser la perte d'information significative.

📖

termes

Compensation de Biais de Quantification (Q-Bias)

Technique d'ajustement post-quantification qui analyse et corrige systématiquement les biais introduits par la réduction de précision, souvent en modifiant les couches de normalisation ou les biais des couches linéaires.

📖

termes

Optimisation par Recherche de Grille de Quantification

Méthode d'exploration systématique de différentes configurations de quantification (par couche, par groupe, mixte) pour identifier le schéma optimal offrant le meilleur équilibre entre taille de modèle, vitesse et précision pour une architecture donnée.

📖

termes

Inférence Spécifique (Speculative Inference)

Technique d'accélération de l'inférence générative où un petit modèle 'draft' propose rapidement plusieurs tokens, qui sont ensuite validés en parallèle par le grand modèle cible, réduisant le nombre total d'étapes de calcul coûteuses.

📖

termes

Décomposition en Valeurs Singulières Tronquée (Truncated SVD)

Application de la décomposition SVD suivie d'une troncature des plus petites valeurs singulières pour approximer une matrice de poids par une somme de rang inférieur, réduisant ainsi les paramètres et le calcul avec une erreur contrôlée.

📖

termes

Quantification par Blocs (Block-wise Quantization)

Stratégie de quantification qui divise les tenseurs de poids en blocs plus petits et applique une quantification indépendante à chaque bloc, préservant mieux la distribution des valeurs et réduisant l'erreur globale par rapport à la quantification globale.

📖

termes

Poids Structurés Épars (Structured Sparsity)

Forme d'élagage qui impose des schémas de régularité (par ligne, colonne ou bloc) sur les poids supprimés, permettant d'exploiter efficacement les accélérations matérielles sur les CPU/GPU contrairement à la sparsité non structurée aléatoire.

Glossaire IA

Quantification Consciente de la Quantification (QAT)

Matérialisation de Faible Rang (LoRA)

Représentation 8-bit Flottante (FP8)

Quantification 4-bit Entière (INT4)

Compensation de Biais de Quantification (Q-Bias)

Optimisation par Recherche de Grille de Quantification

Inférence Spécifique (Speculative Inference)

Décomposition en Valeurs Singulières Tronquée (Truncated SVD)

Quantification par Blocs (Block-wise Quantization)

Poids Structurés Épars (Structured Sparsity)

Aucun résultat trouvé