Quantificação e Compressão
Quantização por Blocos (Blockwise Quantization)
Técnica que divide os tensores de pesos ou ativações em blocos menores e aplica uma quantização independente a cada bloco. Ela permite capturar melhor as variações de magnitude locais, reduzindo o erro de quantização global.
← Voltar