Glossário IA
O dicionário completo da Inteligência Artificial
Conjunto de Dados de Calibração
Subconjunto representativo dos dados de treinamento usado para determinar as faixas de valores ótimas durante a quantização estática, essencial para calcular os fatores de escala e pontos zero.
Desquantização
Processo inverso da quantização que converte valores inteiros de baixa precisão de volta para ponto flutuante para cálculos que exigem maior precisão durante a inferência.
Quantização de Precisão Mista
Estratégia híbrida que aplica diferentes níveis de precisão (8-bit, 4-bit, 2-bit) às diferentes camadas do modelo, de acordo com sua sensibilidade à quantização.
Quantização Por Canal
Técnica de quantização que aplica fatores de escala distintos para cada canal de saída de uma camada convolucional, melhorando significativamente a precisão para CNNs.
Quantização Por Tensor
Abordagem mais simples que utiliza um único fator de escala e ponto zero para todo o tensor, menos precisa, mas mais rápida de calcular do que a quantização por canal.
Faixa de Recorte
Faixa de valores definida durante a calibração para limitar os extremos antes da quantização, essencial para minimizar o erro de quantização, excluindo os outliers.
Quantização Por Camada
Método que otimiza independentemente os parâmetros de quantização para cada camada da rede, levando em consideração as características específicas de distribuição de cada camada.
Erro de Quantização
Diferença entre os valores originais em ponto flutuante e suas representações quantizadas, medida por métricas como MSE ou divergência KL para avaliar a qualidade da quantização.
Inferência Apenas com Inteiros
Paradigma de execução onde todas as operações do modelo são realizadas em aritmética inteira, eliminando completamente as conversões de ponto flutuante para máxima performance.