Quantification et Compression - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

Quantification Post-Entraînement (PTQ)

Technique de réduction de précision appliquée à un modèle déjà entraîné, sans nécessiter de ré-entraînement complet. Elle convertit les poids et activations de haute précision (ex: FP32) en représentations de plus faible précision (ex: INT8) pour optimiser l'inférence.

📖

शब्द

Quantification Consciente de l'Entraînement (QAT)

Méthode où les opérations de quantification et déquantification sont intégrées dans le graphe computationnel durant l'entraînement. Cela permet au modèle de s'adapter à la perte de précision, minimisant la dégradation des performances par rapport à la PTQ.

📖

शब्द

Binarisation des Réseaux de Neurones (BNN)

Forme extrême de quantification où les poids et/ou activations sont contraints à une seule valeur binaire (+1 ou -1). Elle permet des gains de calcul et de mémoire considérables en remplaçant les multiplications par des additions/soustractions.

📖

शब्द

Élagage Structuré (Structured Pruning)

Technique de compression qui supprime des structures entières de poids, comme des filtres, des canaux ou des têtes d'attention, plutôt que des poids individuels. Elle est plus efficace pour accélérer le calcul sur les matériels modernes que l'élagage non structuré.

📖

शब्द

Élagage Non Structuré (Unstructured Pruning)

Méthode de compression qui élimine des poids individuels dans le réseau, généralement ceux de plus faible magnitude. Bien qu'elle puisse réduire la taille du modèle, elle nécessite un support matériel spécialisé (sparsity) pour accélérer le calcul.

📖

शब्द

Factorisation de Matrice à Basse Rang

Technique de compression qui décompose une grande matrice de poids en deux ou plusieurs matrices plus petites. Elle réduit le nombre de paramètres et les opérations de multiplication matricielle, accélérant ainsi les couches denses et convolutives.

📖

शब्द

Distillation des Connaissances (Knowledge Distillation)

Processus de compression où un petit modèle

📖

शब्द

Encodage de Huffman pour les Poids

Méthode de compression sans perte qui applique l'algorithme de codage de Huffman aux poids d'un modèle. Elle assigne des codes binaires plus courts aux poids les plus fréquents, réduisant la taille du fichier sur disque sans affecter la vitesse d'inférence.

📖

शब्द

Partage de Poids (Weight Sharing)

Technique de compression qui regroupe les poids en clusters et remplace chaque poids par l'indice du centroïde de son cluster. Cela réduit le nombre de bits nécessaires pour stocker chaque poids et permet l'utilisation de tables de consultation (lookup tables) à l'inférence.

📖

शब्द

Décomposition de Tucker

Forme de décomposition tensorielle appliquée aux tenseurs de poids (convolutions 4D) pour les compresser. Elle décompose un tenseur en un noyau central plus petit et des matrices de facteurs, réduisant significativement le nombre de paramètres et le coût calculatoire.

📖

शब्द

Décomposition CP (CANDECOMP/PARAFAC)

Méthode de décomposition tensorielle qui exprime un tenseur comme une somme de produits de vecteurs de rang un. Elle est utilisée pour compresser les couches convolutives en approximant le tenseur de poids avec un nombre réduit de composantes.

📖

शब्द

Réseau de Neurones à Épaisseur Variable (VNN)

Architecture de modèle où le nombre de canaux actifs dans chaque couche peut varier dynamiquement en fonction des contraintes de ressources. Elle permet un compromis flexible entre précision et coût calculatoire à l'exécution.

📖

शब्द

Quantification par Blocs (Blockwise Quantization)

Technique qui divise les tenseurs de poids ou d'activations en blocs plus petits et applique une quantification indépendante à chaque bloc. Elle permet de mieux capturer les variations de magnitude locales, réduisant l'erreur de quantification globale.

📖

शब्द

Représentation Numérique à Virgule Flottante 8 bits (FP8)

Format de données de faible précision utilisant 8 bits pour représenter des nombres à virgule flottante, avec différentes variantes (E4M3, E5M2) pour l'entraînement et l'inférence. Il offre un compromis supérieur aux formats entiers pour certaines charges de travail IA.

📖

शब्द

Sparsité Structurée N:M

Schéma d'élagage où, pour chaque bloc de M poids, exactement N poids sont conservés (N < M). Ce motif régulier est conçu pour être accéléré efficacement par les unités de calcul matriciel spécialisées (Tensor Cores) des GPU modernes.

एआई शब्दावली

Quantification Post-Entraînement (PTQ)

Quantification Consciente de l'Entraînement (QAT)

Binarisation des Réseaux de Neurones (BNN)

Élagage Structuré (Structured Pruning)

Élagage Non Structuré (Unstructured Pruning)

Factorisation de Matrice à Basse Rang

Distillation des Connaissances (Knowledge Distillation)

Encodage de Huffman pour les Poids

Partage de Poids (Weight Sharing)

Décomposition de Tucker

Décomposition CP (CANDECOMP/PARAFAC)

Réseau de Neurones à Épaisseur Variable (VNN)

Quantification par Blocs (Blockwise Quantization)

Représentation Numérique à Virgule Flottante 8 bits (FP8)

Sparsité Structurée N:M

कोई परिणाम नहीं मिला