Quantificação e Compressão

📖

termos

Quantização Pós-Treinamento (PTQ)

Técnica de redução de precisão aplicada a um modelo já treinado, sem a necessidade de um novo treinamento completo. Ela converte os pesos e ativações de alta precisão (ex: FP32) em representações de menor precisão (ex: INT8) para otimizar a inferência.

📖

termos

Quantização Consciente do Treinamento (QAT)

Método onde as operações de quantização e desquantização são integradas no grafo computacional durante o treinamento. Isso permite que o modelo se adapte à perda de precisão, minimizando a degradação do desempenho em comparação com o PTQ.

📖

termos

Binarização de Redes Neurais (BNN)

Forma extrema de quantização onde os pesos e/ou ativações são restritos a um único valor binário (+1 ou -1). Ela permite ganhos consideráveis de computação e memória ao substituir as multiplicações por adições/subtrações.

📖

termos

Poda Estruturada (Structured Pruning)

Técnica de compressão que remove estruturas inteiras de pesos, como filtros, canais ou cabeças de atenção, em vez de pesos individuais. É mais eficaz para acelerar o cálculo em hardware moderno do que a poda não estruturada.

📖

termos

Poda Não Estruturada (Unstructured Pruning)

Método de compressão que elimina pesos individuais na rede, geralmente aqueles de menor magnitude. Embora possa reduzir o tamanho do modelo, requer suporte de hardware especializado (esparsidade) para acelerar o cálculo.

📖

termos

Fatoração de Matriz de Baixo Rank

Técnica de compressão que decompõe uma grande matriz de pesos em duas ou mais matrizes menores. Ela reduz o número de parâmetros e as operações de multiplicação de matrizes, acelerando assim as camadas densas e convolucionais.

📖

termos

Destilação de Conhecimento (Knowledge Distillation)

Processo de compressão onde um modelo pequeno

📖

termos

Codificação de Huffman para Pesos

Método de compressão sem perdas que aplica o algoritmo de codificação de Huffman aos pesos de um modelo. Ele atribui códigos binários mais curtos aos pesos mais frequentes, reduzindo o tamanho do arquivo em disco sem afetar a velocidade de inferência.

📖

termos

Compartilhamento de Pesos (Weight Sharing)

Técnica de compressão que agrupa os pesos em clusters e substitui cada peso pelo índice do centroide de seu cluster. Isso reduz o número de bits necessários para armazenar cada peso e permite o uso de tabelas de consulta (lookup tables) na inferência.

📖

termos

Decomposição de Tucker

Forma de decomposição tensorial aplicada a tensores de pesos (convoluções 4D) para comprimi-los. Ela decompõe um tensor em um núcleo central menor e matrizes de fatores, reduzindo significativamente o número de parâmetros e o custo computacional.

📖

termos

Decomposição CP (CANDECOMP/PARAFAC)

Método de decomposição tensorial que expressa um tensor como uma soma de produtos de vetores de posto um. É utilizada para comprimir as camadas convolucionais aproximando o tensor de pesos com um número reduzido de componentes.

📖

termos

Rede Neural de Espessura Variável (VNN)

Arquitetura de modelo onde o número de canais ativos em cada camada pode variar dinamicamente em função das restrições de recursos. Ela permite um compromisso flexível entre precisão e custo computacional na execução.

📖

termos

Quantização por Blocos (Blockwise Quantization)

Técnica que divide os tensores de pesos ou ativações em blocos menores e aplica uma quantização independente a cada bloco. Ela permite capturar melhor as variações de magnitude locais, reduzindo o erro de quantização global.

📖

termos

Representação Numérica de Ponto Flutuante de 8 bits (FP8)

Formato de dados de baixa precisão que utiliza 8 bits para representar números de ponto flutuante, com diferentes variantes (E4M3, E5M2) para treinamento e inferência. Ele oferece um compromisso superior aos formatos inteiros para certas cargas de trabalho de IA.

📖

termos

Esparsidade Estruturada N:M

Esquema de poda onde, para cada bloco de M pesos, exatamente N pesos são mantidos (N < M). Este padrão regular é projetado para ser acelerado eficientemente pelas unidades de cálculo matricial especializadas (Tensor Cores) das GPUs modernas.

Glossário IA

Quantização Pós-Treinamento (PTQ)

Quantização Consciente do Treinamento (QAT)

Binarização de Redes Neurais (BNN)

Poda Estruturada (Structured Pruning)

Poda Não Estruturada (Unstructured Pruning)

Fatoração de Matriz de Baixo Rank

Destilação de Conhecimento (Knowledge Distillation)

Codificação de Huffman para Pesos

Compartilhamento de Pesos (Weight Sharing)

Decomposição de Tucker

Decomposição CP (CANDECOMP/PARAFAC)

Rede Neural de Espessura Variável (VNN)

Quantização por Blocos (Blockwise Quantization)

Representação Numérica de Ponto Flutuante de 8 bits (FP8)

Esparsidade Estruturada N:M

Nenhum resultado encontrado