Thuật ngữ AI
Từ điển đầy đủ về Trí tuệ nhân tạo
Weight Quantization
Réduction de la précision des poids du modèle uniquement, en conservant les activations en précision complète pour un meilleur équilibre performance/vitesse.
Activation Quantization
Processus de réduction de la précision des activations (sorties des couches) en plus des poids pour une optimisation maximale du modèle.
8-bit Quantization
Conversion des paramètres du modèle de 32 ou 16 bits vers 8 bits, réduisant de 75% la mémoire avec impact modéré sur la précision.
4-bit Quantization
Technique extrême de réduction vers 4 bits permettant des gains mémoire majeurs mais nécessitant des algorithmes avancés pour maintenir les performances.
Dynamic Quantization
Quantification appliquée dynamiquement à l'inférence, adaptant les paramètres de quantification en temps réel selon les données d'entrée.
Static Quantization
Pré-calcul des paramètres de quantification sur un ensemble de calibration fixe, optimisant la vitesse mais nécessitant des données représentatives.