Glossário IA
O dicionário completo da Inteligência Artificial
Quantificação
Processo de redução da precisão numérica dos pesos e ativações de um modelo de IA para otimizar a inferência e reduzir a pegada de memória.
Quantificação 8-bit
Técnica de compressão que reduz os pesos do modelo de 32 bits para 8 bits, oferecendo um compromisso ideal entre desempenho e precisão para LLMs.
Quantificação 4-bit
Método de compressão extrema que reduz os pesos para 4 bits, permitindo ganhos significativos de memória, mas com possível perda de qualidade.
Quantificação Pós-Treinamento (PTQ)
Técnica aplicada após o treinamento do modelo, convertendo os pesos em precisão reduzida sem necessidade de retreinamento completo.
Quantificação com Consciência de Treinamento (QAT)
Abordagem de treinamento que simula os efeitos da quantificação durante o processo de aprendizado para minimizar a perda de precisão.
Quantificação Dinâmica
Método aplicado na inferência onde as ativações são quantificadas em tempo real, oferecendo flexibilidade mas com sobrecarga computacional.
Quantificação Estática
Abordagem que pré-calcula os parâmetros de quantificação antes da inferência, otimizando a velocidade em detrimento da flexibilidade.
Calibração de Quantificação
Processo de determinação dos parâmetros ótimos de quantificação (escala, ponto zero) a partir de uma amostra de dados representativos.
GPTQ
Quantização Pós-Treinamento Baseada em Gradiente, técnica avançada que otimiza iterativamente os pesos quantificados para minimizar o erro de reconstrução.
AWQ
Quantização de Pesos com Consciência de Ativação, método que pondera a importância dos pesos de acordo com a amplitude das ativações correspondentes.
Quantificação Zero-shot
Técnica que não requer dados de calibração, utilizando heurísticas baseadas na distribuição dos pesos para quantificar o modelo.
Quantificação de Precisão Mista
Estratégia que aplica diferentes precisões de quantificação de acordo com as camadas do modelo para otimizar o compromisso desempenho/precisão.
Quantificação Simétrica
Esquema de quantificação onde a faixa de valores é centrada em torno de zero, simplificando os cálculos mas podendo subutilizar a faixa dinâmica.
Quantificação Assimétrica
Abordagem que permite faixas de valores não centradas em zero, otimizando a utilização da faixa quantificada para distribuições assimétricas.
Fator de Escala
Parâmetro multiplicativo usado para mapear valores contínuos na faixa quantificada, crucial para a precisão da quantificação.
Ponto Zero
Deslocamento adicionado durante a quantificação assimétrica para alinhar o valor zero em ponto flutuante com a representação quantificada.
Ruído de Quantização
Erro introduzido pela redução de precisão, manifestando-se como uma degradação do desempenho do modelo devido à aproximação dos pesos.
Fine-tuning com Consciência de Quantização
Processo de ajuste leve pós-quantização visando recuperar a precisão perdida durante a compressão do modelo.
SmoothQuant
Técnica de quantização que equaliza a dificuldade de quantização entre pesos e ativações através de transformação matemática prévia.
LLM.int8()
Método específico de quantização de 8 bits para grandes modelos de linguagem, combinando decomposição matricial e quantização híbrida.