Quantificação e Otimização

📖

termos

Quantificação Consciente da Quantização (QAT)

Método de otimização onde a simulação da quantização de baixa precisão é integrada durante o treinamento, permitindo que o modelo adapte seus pesos para minimizar a perda de desempenho induzida pela quantização.

📖

termos

Materialização de Baixo Rank (LoRA)

Método de adaptação eficiente que congela os pesos de um modelo pré-treinado e injeta pequenas matrizes de baixo rank decomponíveis, reduzindo drasticamente o número de parâmetros treináveis para o fine-tuning, preservando o desempenho.

📖

termos

Representação Flutuante de 8 bits (FP8)

Formato de dados numéricos de precisão muito baixa usando 8 bits para representar números de ponto flutuante, permitindo acelerações significativas em GPUs modernas enquanto mantém a estabilidade do treinamento de grandes modelos.

📖

termos

Quantização Inteira de 4 bits (INT4)

Técnica de compressão extrema que representa os pesos do modelo em 4 bits, exigindo algoritmos de quantização avançados e frequentemente um retreinamento parcial para compensar a perda significativa de informação.

📖

termos

Compensação de Viés de Quantização (Q-Bias)

Técnica de ajuste pós-quantização que analisa e corrige sistematicamente os vieses introduzidos pela redução de precisão, frequentemente modificando as camadas de normalização ou os vieses das camadas lineares.

📖

termos

Otimização por Busca em Grade de Quantização

Método de exploração sistemática de diferentes configurações de quantização (por camada, por grupo, mista) para identificar o esquema ideal que oferece o melhor equilíbrio entre tamanho do modelo, velocidade e precisão para uma dada arquitetura.

📖

termos

Inferência Especulativa (Speculative Inference)

Técnica de aceleração da inferência generativa onde um pequeno modelo 'rascunho' propõe rapidamente vários tokens, que são então validados em paralelo pelo grande modelo alvo, reduzindo o número total de etapas de cálculo custosas.

📖

termos

Decomposição em Valores Singulares Truncada (Truncated SVD)

Aplicação da decomposição SVD seguida de uma truncagem dos menores valores singulares para aproximar uma matriz de pesos por uma soma de rank inferior, reduzindo assim os parâmetros e o cálculo com um erro controlado.

📖

termos

Quantização por Blocos (Block-wise Quantization)

Estratégia de quantização que divide os tensores de peso em blocos menores e aplica uma quantização independente a cada bloco, preservando melhor a distribuição dos valores e reduzindo o erro global em comparação com a quantização global.

📖

termos

Pesos Estruturados Esparsos (Structured Sparsity)

Forma de poda que impõe padrões de regularidade (por linha, coluna ou bloco) nos pesos removidos, permitindo explorar eficientemente as acelerações de hardware em CPUs/GPUs, ao contrário da esparsidade não estruturada aleatória.

Glossário IA

Quantificação Consciente da Quantização (QAT)

Materialização de Baixo Rank (LoRA)

Representação Flutuante de 8 bits (FP8)

Quantização Inteira de 4 bits (INT4)

Compensação de Viés de Quantização (Q-Bias)

Otimização por Busca em Grade de Quantização

Inferência Especulativa (Speculative Inference)

Decomposição em Valores Singulares Truncada (Truncated SVD)

Quantização por Blocos (Block-wise Quantization)

Pesos Estruturados Esparsos (Structured Sparsity)

Nenhum resultado encontrado