Glossário IA
O dicionário completo da Inteligência Artificial
Quantização de Bits Variáveis
Técnica de otimização de redes neurais que aloca dinamicamente diferentes números de bits para cada peso ou ativação com base em sua importância, reduzindo assim o tamanho do modelo enquanto preserva o desempenho.
Alocação Dinâmica de Bits
Algoritmo que determina automaticamente o número ideal de bits a serem atribuídos a cada parâmetro do modelo, analisando sua sensibilidade e seu impacto no desempenho global da rede.
Quantização de Precisão Mista
Abordagem híbrida que combina diferentes precisões numéricas em um mesmo modelo, usando tipicamente 8 bits para camadas críticas e 4 bits ou menos para camadas menos sensíveis.
Quantização Sensível a Camadas
Método de quantização que analisa a sensibilidade de cada camada neural à redução de precisão para otimizar a alocação de bits e minimizar a degradação do desempenho.
Quantização Baseada em Entropia
Técnica que utiliza os princípios da teoria da informação para determinar o número ideal de bits com base na distribuição dos pesos e sua entropia informacional.
Quantização Não Uniforme
Estratégia de quantização que utiliza passos de quantização variáveis adaptados à distribuição dos parâmetros, permitindo uma representação mais eficiente de valores extremos e frequentes.
Quantização por Importância dos Pesos
Método que avalia a importância de cada peso na rede através de métricas como magnitude ou gradiente, alocando mais bits para pesos críticos e menos para os outros.
Quantização Diferenciável
Técnica que permite o treinamento de ponta a ponta de modelos quantizados usando aproximações diferenciáveis das funções de arredondamento não diferenciáveis clássicas.
Quantificação com Aprendizagem
Método onde os parâmetros de quantificação (níveis de bits, pontos de quantificação) são aprendidos em conjunto com os pesos do modelo durante o treinamento para uma otimização global.
Quantificação por Agrupamento
Técnica que agrupa pesos semelhantes e aplica uma quantificação adaptativa a cada grupo, permitindo uma representação mais eficiente de estruturas de pesos repetitivas.
Quantificação de Resolução Múltipla
Abordagem que aplica diferentes resoluções de quantificação a diferentes partes de um tensor, otimizando a representação das características locais e globais dos dados.
Quantificação Baseada na Distribuição
Método adaptativo que ajusta dinamicamente a estratégia de quantificação em função da distribuição estatística das ativações e pesos em cada etapa do cálculo.
Quantificação com Restrição de Orçamento
Otimização sob restrição que maximiza a precisão do modelo enquanto respeita um orçamento fixo de bits totais, distribuindo inteligentemente os recursos entre todos os parâmetros.
Quantificação Progressiva
Estratégia incremental que começa com uma quantificação agressiva e aumenta progressivamente a precisão das camadas críticas até atingir um compromisso ótimo tamanho-desempenho.
Quantificação por Importância das Ativações
Técnica especializada que analisa e quantifica diferentemente as ativações em função de sua variância e contribuição para a propagação do gradiente na rede.