Glossário IA
O dicionário completo da Inteligência Artificial
Quantização de Ativações
Processo de redução da precisão dos valores de ativação propagados na rede neural, essencial para minimizar o uso de memória e otimizar os cálculos em microcontroladores com recursos limitados.
Quantização Consciente Durante o Treinamento
Abordagem onde a quantização é simulada durante a fase de treinamento para minimizar a perda de precisão, resultando em modelos mais robustos uma vez quantificados para dispositivos embarcados.
Precisão de 8 bits
Formato de representação numérica utilizando 8 bits por parâmetro, oferecendo um equilíbrio ótimo entre precisão e eficiência para a maioria das aplicações de deep learning em dispositivos IoT.
Poda de Rede Neural
Técnica de compressão que elimina seletivamente os pesos ou neurônios menos importantes da rede, reduzindo significativamente o tamanho do modelo enquanto preserva o desempenho essencial.
Binarização Extrema
Forma extrema de quantização que reduz todos os pesos e ativações para 1 bit (+1/-1), maximizando a compressão e acelerando drasticamente os cálculos em hardware IoT especializado.
Representação de Ponto Fixo
Formato numérico onde os números são representados com um número fixo de bits para a parte inteira e decimal, preferido em dispositivos IoT pela sua simplicidade de hardware e eficiência energética.
Otimização de Edge AI
Conjunto de técnicas que combinam quantização, compressão e otimização algorítmica para adaptar eficazmente os modelos de IA às restrições rigorosas dos dispositivos edge e IoT.
Poda Estruturada de Pesos
Variante da poda que remove estruturas inteiras (filtros, canais ou cabeças de atenção) em vez de pesos individuais, gerando modelos mais eficientes em hardware IoT.
Quantificação sub-8-bit
Técnicas avançadas que reduzem a precisão para menos de 8 bits (4, 2 ou até 1 bit) para máxima compressão, adequadas para aplicações IoT extremamente restritas.
Fatoração de tensor
Técnica matemática que decompõe tensores de pesos de alta dimensão em produtos de tensores menores, reduzindo drasticamente o número de parâmetros para implantação em IoT.
Codificação de pesos compactada
Algoritmo de compressão aplicado após a quantificação, utilizando técnicas como Huffman ou codificação por execução (run-length encoding) para reduzir ainda mais o tamanho de armazenamento dos modelos em IoT.