Mixed Precision Computing
INT8 Quantization
Technique de compression des poids et activations neuronales sur 8 bits entiers signés (-128 à 127) avec facteurs d'échelle et zéro-points, offrant jusqu'à 4x réduction mémoire et accélération significative sur matériel compatible.
← Retour