Quantificação Mista

📖

termos

Técnica de otimização que aplica diferentes precisões de bits às camadas de uma rede neural para equilibrar desempenho e tamanho do modelo. Esta abordagem estratégica permite manter alta precisão em camadas críticas, reduzindo a memória geral.

📖

termos

Quantificação Consciente do Treinamento

Metodologia que integra operações de pseudo-quantificação durante o treinamento para simular o efeito da quantificação de baixa precisão. Esta técnica permite que o modelo se adapte aos erros de arredondamento antes da conversão final.

📖

termos

Sensibilidade das Camadas

Medida do impacto da quantificação no desempenho de cada camada individual da rede neural. Camadas sensíveis exigem maior precisão para manter a qualidade geral do modelo.

📖

termos

Quantificação Heterogênea

Abordagem de quantificação que atribui dinamicamente diferentes larguras de bits de acordo com as características computacionais e a importância de cada camada. Esta estratégia otimiza o compromisso entre aceleração de hardware e degradação da precisão.

📖

termos

Criação de Perfil do Modelo

Análise exaustiva das características de um modelo treinado para identificar as camadas candidatas a diferentes estratégias de quantificação. A criação de perfil avalia as distribuições estatísticas, as faixas dinâmicas e o impacto na precisão.

📖

termos

Quantificação por Tensor

Método que aplica um único conjunto de parâmetros de quantificação a todo um tensor, garantindo consistência de escala para todos os valores. Esta abordagem simplifica a implementação de hardware, mas pode reduzir a precisão para distribuições amplas.

📖

termos

Quantificação por Canal

Técnica de quantificação que utiliza parâmetros distintos para cada canal ou grupo de canais em uma camada de convolução. Este método preserva melhor a precisão, adaptando a escala às características específicas de cada filtro.

📖

termos

Escala de Quantificação

Parâmetro multiplicativo que converte valores de ponto flutuante em inteiros quantificados de acordo com a fórmula Q = round(R/S + Z). A escala determina a precisão e o intervalo de representação dos valores quantificados.

📖

termos

Ponto Zero de Quantização

Valor inteiro correspondente ao valor zero de ponto flutuante no sistema quantificado, essencial para preservar os zeros estruturais das redes neurais. Este parâmetro permite um alinhamento preciso entre os domínios quantificado e real.

📖

termos

Ruído de Quantização

Erro introduzido durante a conversão de números de alta precisão para uma representação de bits reduzidos, manifestando-se como uma perda de informação. A análise do ruído de quantização orienta a seleção das camadas a serem preservadas em alta precisão.

📖

termos

Requantização

Processo de conversão entre diferentes precisões de quantização dentro do mesmo modelo, necessário durante operações entre camadas de bits diferentes. A requantização mantém a coerência numérica enquanto otimiza o uso dos recursos.

📖

termos

Estratégia de Bits Variáveis

Abordagem algorítmica que determina a distribuição ótima das larguras de bits através da rede para minimizar o tamanho do modelo sob restrição de precisão. Esta estratégia resolve um problema de otimização combinatória complexo.

📖

termos

Quantização Hierárquica

Método que organiza as camadas em hierarquias baseadas na sua importância e sensibilidade à quantização. A quantização hierárquica aplica políticas de bits diferentes de acordo com o nível hierárquico de cada grupo de camadas.

Glossário IA