Quantification et Compression
Quantification par Blocs (Blockwise Quantization)
Technique qui divise les tenseurs de poids ou d'activations en blocs plus petits et applique une quantification indépendante à chaque bloc. Elle permet de mieux capturer les variations de magnitude locales, réduisant l'erreur de quantification globale.
← Retour