Glossário IA
O dicionário completo da Inteligência Artificial
Quantização Pós-Treinamento (PTQ)
Técnica de redução de precisão aplicada a um modelo já treinado, sem a necessidade de um novo treinamento completo. Ela converte os pesos e ativações de alta precisão (ex: FP32) em representações de menor precisão (ex: INT8) para otimizar a inferência.
Quantização Consciente do Treinamento (QAT)
Método onde as operações de quantização e desquantização são integradas no grafo computacional durante o treinamento. Isso permite que o modelo se adapte à perda de precisão, minimizando a degradação do desempenho em comparação com o PTQ.
Binarização de Redes Neurais (BNN)
Forma extrema de quantização onde os pesos e/ou ativações são restritos a um único valor binário (+1 ou -1). Ela permite ganhos consideráveis de computação e memória ao substituir as multiplicações por adições/subtrações.
Poda Estruturada (Structured Pruning)
Técnica de compressão que remove estruturas inteiras de pesos, como filtros, canais ou cabeças de atenção, em vez de pesos individuais. É mais eficaz para acelerar o cálculo em hardware moderno do que a poda não estruturada.
Poda Não Estruturada (Unstructured Pruning)
Método de compressão que elimina pesos individuais na rede, geralmente aqueles de menor magnitude. Embora possa reduzir o tamanho do modelo, requer suporte de hardware especializado (esparsidade) para acelerar o cálculo.
Fatoração de Matriz de Baixo Rank
Técnica de compressão que decompõe uma grande matriz de pesos em duas ou mais matrizes menores. Ela reduz o número de parâmetros e as operações de multiplicação de matrizes, acelerando assim as camadas densas e convolucionais.
Destilação de Conhecimento (Knowledge Distillation)
Processo de compressão onde um modelo pequeno
Codificação de Huffman para Pesos
Método de compressão sem perdas que aplica o algoritmo de codificação de Huffman aos pesos de um modelo. Ele atribui códigos binários mais curtos aos pesos mais frequentes, reduzindo o tamanho do arquivo em disco sem afetar a velocidade de inferência.
Compartilhamento de Pesos (Weight Sharing)
Técnica de compressão que agrupa os pesos em clusters e substitui cada peso pelo índice do centroide de seu cluster. Isso reduz o número de bits necessários para armazenar cada peso e permite o uso de tabelas de consulta (lookup tables) na inferência.
Decomposição de Tucker
Forma de decomposição tensorial aplicada a tensores de pesos (convoluções 4D) para comprimi-los. Ela decompõe um tensor em um núcleo central menor e matrizes de fatores, reduzindo significativamente o número de parâmetros e o custo computacional.
Decomposição CP (CANDECOMP/PARAFAC)
Método de decomposição tensorial que expressa um tensor como uma soma de produtos de vetores de posto um. É utilizada para comprimir as camadas convolucionais aproximando o tensor de pesos com um número reduzido de componentes.
Rede Neural de Espessura Variável (VNN)
Arquitetura de modelo onde o número de canais ativos em cada camada pode variar dinamicamente em função das restrições de recursos. Ela permite um compromisso flexível entre precisão e custo computacional na execução.
Quantização por Blocos (Blockwise Quantization)
Técnica que divide os tensores de pesos ou ativações em blocos menores e aplica uma quantização independente a cada bloco. Ela permite capturar melhor as variações de magnitude locais, reduzindo o erro de quantização global.
Representação Numérica de Ponto Flutuante de 8 bits (FP8)
Formato de dados de baixa precisão que utiliza 8 bits para representar números de ponto flutuante, com diferentes variantes (E4M3, E5M2) para treinamento e inferência. Ele oferece um compromisso superior aos formatos inteiros para certas cargas de trabalho de IA.
Esparsidade Estruturada N:M
Esquema de poda onde, para cada bloco de M pesos, exatamente N pesos são mantidos (N < M). Este padrão regular é projetado para ser acelerado eficientemente pelas unidades de cálculo matricial especializadas (Tensor Cores) das GPUs modernas.