Glossário IA
O dicionário completo da Inteligência Artificial
TF32 (TensorFloat-32)
Formato híbrido proprietário da NVIDIA de 19 bits que combina 8 bits de expoente de FP16 e 10 bits de mantissa de FP32, otimizado para operações de matriz nos Tensor Cores das GPUs Ampere e Hopper.
Dynamic Range (Alcance Dinâmico)
Intervalo de valores representáveis entre o menor número normalizado e o maior número de ponto flutuante, crítico na escolha da precisão, pois FP16 tem um alcance dinâmico limitado (65504) em comparação com FP32 (3.4×10³⁸).
Post-Training Quantization (PTQ) (Quantização Pós-Treinamento)
Processo de conversão de um modelo pré-treinado em precisão total para uma precisão reduzida (FP16, INT8, INT4) sem retreinamento, utilizando técnicas de calibração para determinar os fatores de escala e de polarização ideais.
Fused Multiply-Add (FMA) (Multiplicação-Adição Fundida)
Operação de hardware que combina multiplicação e adição em uma única instrução (a×b+c) com arredondamento único, fundamental para a aceleração de cálculos de matriz em precisão mista e para a redução de erros de arredondamento cumulativos.
Numerical Stability (Estabilidade Numérica)
Propriedade de um algoritmo de manter a precisão dos cálculos diante de erros de arredondamento e overflow/underflow, particularmente crítica em precisão mista, onde o alcance dinâmico reduzido pode desestabilizar certos cálculos.
INT8 Quantization (Quantização INT8)
Técnica de compressão de pesos e ativações neuronais para inteiros de 8 bits com sinal (-128 a 127) com fatores de escala e pontos zero, oferecendo até 4x redução de memória e aceleração significativa em hardware compatível.
Precision Matrix Operations (Operações de Matriz de Precisão)
Conjunto de operações lineares (GEMM, convolução) onde diferentes partes do cálculo utilizam diferentes precisões – tipicamente acumulação em FP32 com multiplicação em FP16/BF16 para otimizar o throughput em GPUs modernas.