Quantificação

📖

termos

Processo de redução da precisão numérica dos pesos e ativações de um modelo de IA para otimizar a inferência e reduzir a pegada de memória.

📖

termos

Quantificação 8-bit

Técnica de compressão que reduz os pesos do modelo de 32 bits para 8 bits, oferecendo um compromisso ideal entre desempenho e precisão para LLMs.

📖

termos

Quantificação 4-bit

Método de compressão extrema que reduz os pesos para 4 bits, permitindo ganhos significativos de memória, mas com possível perda de qualidade.

📖

termos

Quantificação Pós-Treinamento (PTQ)

Técnica aplicada após o treinamento do modelo, convertendo os pesos em precisão reduzida sem necessidade de retreinamento completo.

📖

termos

Quantificação com Consciência de Treinamento (QAT)

Abordagem de treinamento que simula os efeitos da quantificação durante o processo de aprendizado para minimizar a perda de precisão.

📖

termos

Quantificação Dinâmica

Método aplicado na inferência onde as ativações são quantificadas em tempo real, oferecendo flexibilidade mas com sobrecarga computacional.

📖

termos

Quantificação Estática

Abordagem que pré-calcula os parâmetros de quantificação antes da inferência, otimizando a velocidade em detrimento da flexibilidade.

📖

termos

Calibração de Quantificação

Processo de determinação dos parâmetros ótimos de quantificação (escala, ponto zero) a partir de uma amostra de dados representativos.

📖

termos

GPTQ

Quantização Pós-Treinamento Baseada em Gradiente, técnica avançada que otimiza iterativamente os pesos quantificados para minimizar o erro de reconstrução.

📖

termos

AWQ

Quantização de Pesos com Consciência de Ativação, método que pondera a importância dos pesos de acordo com a amplitude das ativações correspondentes.

📖

termos

Quantificação Zero-shot

Técnica que não requer dados de calibração, utilizando heurísticas baseadas na distribuição dos pesos para quantificar o modelo.

📖

termos

Quantificação de Precisão Mista

Estratégia que aplica diferentes precisões de quantificação de acordo com as camadas do modelo para otimizar o compromisso desempenho/precisão.

📖

termos

Quantificação Simétrica

Esquema de quantificação onde a faixa de valores é centrada em torno de zero, simplificando os cálculos mas podendo subutilizar a faixa dinâmica.

📖

termos

Quantificação Assimétrica

Abordagem que permite faixas de valores não centradas em zero, otimizando a utilização da faixa quantificada para distribuições assimétricas.

📖

termos

Fator de Escala

Parâmetro multiplicativo usado para mapear valores contínuos na faixa quantificada, crucial para a precisão da quantificação.

📖

termos

Ponto Zero

Deslocamento adicionado durante a quantificação assimétrica para alinhar o valor zero em ponto flutuante com a representação quantificada.

📖

termos

Ruído de Quantização

Erro introduzido pela redução de precisão, manifestando-se como uma degradação do desempenho do modelo devido à aproximação dos pesos.

📖

termos

Fine-tuning com Consciência de Quantização

Processo de ajuste leve pós-quantização visando recuperar a precisão perdida durante a compressão do modelo.

📖

termos

SmoothQuant

Técnica de quantização que equaliza a dificuldade de quantização entre pesos e ativações através de transformação matemática prévia.

📖

termos

LLM.int8()

Método específico de quantização de 8 bits para grandes modelos de linguagem, combinando decomposição matricial e quantização híbrida.

Glossário IA

Quantificação

Quantificação 8-bit

Quantificação 4-bit

Quantificação Pós-Treinamento (PTQ)

Quantificação com Consciência de Treinamento (QAT)

Quantificação Dinâmica

Quantificação Estática

Calibração de Quantificação

GPTQ

AWQ

Quantificação Zero-shot

Quantificação de Precisão Mista

Quantificação Simétrica

Quantificação Assimétrica

Fator de Escala

Ponto Zero

Ruído de Quantização

Fine-tuning com Consciência de Quantização

SmoothQuant

LLM.int8()

Nenhum resultado encontrado