Quantização de Bits Variáveis

📖

termos

Quantização de Bits Variáveis

Técnica de otimização de redes neurais que aloca dinamicamente diferentes números de bits para cada peso ou ativação com base em sua importância, reduzindo assim o tamanho do modelo enquanto preserva o desempenho.

📖

termos

Alocação Dinâmica de Bits

Algoritmo que determina automaticamente o número ideal de bits a serem atribuídos a cada parâmetro do modelo, analisando sua sensibilidade e seu impacto no desempenho global da rede.

📖

termos

Quantização de Precisão Mista

Abordagem híbrida que combina diferentes precisões numéricas em um mesmo modelo, usando tipicamente 8 bits para camadas críticas e 4 bits ou menos para camadas menos sensíveis.

📖

termos

Quantização Sensível a Camadas

Método de quantização que analisa a sensibilidade de cada camada neural à redução de precisão para otimizar a alocação de bits e minimizar a degradação do desempenho.

📖

termos

Quantização Baseada em Entropia

Técnica que utiliza os princípios da teoria da informação para determinar o número ideal de bits com base na distribuição dos pesos e sua entropia informacional.

📖

termos

Quantização Não Uniforme

Estratégia de quantização que utiliza passos de quantização variáveis adaptados à distribuição dos parâmetros, permitindo uma representação mais eficiente de valores extremos e frequentes.

📖

termos

Quantização por Importância dos Pesos

Método que avalia a importância de cada peso na rede através de métricas como magnitude ou gradiente, alocando mais bits para pesos críticos e menos para os outros.

📖

termos

Quantização Diferenciável

Técnica que permite o treinamento de ponta a ponta de modelos quantizados usando aproximações diferenciáveis das funções de arredondamento não diferenciáveis clássicas.

📖

termos

Quantificação com Aprendizagem

Método onde os parâmetros de quantificação (níveis de bits, pontos de quantificação) são aprendidos em conjunto com os pesos do modelo durante o treinamento para uma otimização global.

📖

termos

Quantificação por Agrupamento

Técnica que agrupa pesos semelhantes e aplica uma quantificação adaptativa a cada grupo, permitindo uma representação mais eficiente de estruturas de pesos repetitivas.

📖

termos

Quantificação de Resolução Múltipla

Abordagem que aplica diferentes resoluções de quantificação a diferentes partes de um tensor, otimizando a representação das características locais e globais dos dados.

📖

termos

Quantificação Baseada na Distribuição

Método adaptativo que ajusta dinamicamente a estratégia de quantificação em função da distribuição estatística das ativações e pesos em cada etapa do cálculo.

📖

termos

Quantificação com Restrição de Orçamento

Otimização sob restrição que maximiza a precisão do modelo enquanto respeita um orçamento fixo de bits totais, distribuindo inteligentemente os recursos entre todos os parâmetros.

📖

termos

Quantificação Progressiva

Estratégia incremental que começa com uma quantificação agressiva e aumenta progressivamente a precisão das camadas críticas até atingir um compromisso ótimo tamanho-desempenho.

📖

termos

Quantificação por Importância das Ativações

Técnica especializada que analisa e quantifica diferentemente as ativações em função de sua variância e contribuição para a propagação do gradiente na rede.

Glossário IA