Glossário IA
O dicionário completo da Inteligência Artificial
Computação de Precisão Mista
Técnica de computação que utiliza simultaneamente múltiplos formatos numéricos de precisão variável (FP64, FP32, FP16, INT8) para otimizar o equilíbrio entre desempenho de memória, taxa de transferência de cálculo e precisão dos resultados em aplicações de IA.
FP16 (Ponto Flutuante de Meia Precisão)
Formato de representação numérica de 16 bits que inclui 1 bit de sinal, 5 bits de expoente e 10 bits de mantissa, utilizado para acelerar cálculos e reduzir a pegada de memória ao custo de uma precisão reduzida.
FP32 (Ponto Flutuante de Precisão Simples)
Formato de representação numérica padrão de 32 bits com 1 bit de sinal, 8 bits de expoente e 23 bits de mantissa, constituindo a referência de precisão para o treinamento da maioria dos modelos de IA.
INT8 (Inteiro de 8 bits)
Formato de quantização de 8 bits que representa números inteiros com sinal, principalmente utilizado para inferência a fim de maximizar a taxa de transferência de cálculo e minimizar o consumo de energia dos aceleradores de hardware.
Tensor Cores
Unidades de computação especializadas integradas em GPUs modernas (NVIDIA) projetadas para executar operações de multiplicação-acumulação matricial em precisão mista (FP16/FP32) de forma altamente paralela.
Escalonamento Dinâmico de Perda (Dynamic Loss Scaling)
Variante adaptativa do escalonamento de perda onde o fator de escala é ajustado dinamicamente durante o treinamento, aumentando em caso de estabilidade e reduzindo em caso de overflow para otimizar a convergência.
Pesos Mestre (Master Weights)
Cópia dos pesos do modelo mantida em FP32 (ou FP64) durante o treinamento em precisão mista, servindo como referência de precisão para as atualizações de pesos enquanto os cálculos forward/backward são realizados em FP16.
Precisão Mista Automática (AMP)
Funcionalidade dos frameworks de IA (PyTorch, TensorFlow) que seleciona automaticamente as operações a serem executadas em FP16 ou FP32, gerencia a conversão de tipos e aplica o escalonamento de perda de forma transparente.
Unidades de Processamento Vetorial (VPU)
Aceleradores de hardware especializados otimizados para cálculos de precisão inteira (INT8) e baixa precisão, projetados para inferência eficiente de redes neurais em dispositivos edge.
Aceleração por Esparsidade
Técnica combinada com mixed precision que explora os zeros em tensores para pular cálculos desnecessários, reduzindo a largura de banda da memória e aumentando o throughput efetivo das operações matriciais.
Análise de Estabilidade Numérica
Avaliação sistemática do impacto da redução de precisão na convergência e na precisão final de um modelo, identificando as camadas sensíveis que necessitam de manutenção em FP32 numa estratégia de mixed precision.
FP8 (Ponto Flutuante de 8 bits)
Formato emergente de representação de 8 bits com diferentes variantes (E4M3, E5M2) otimizadas para treino e inferência, oferecendo um compromisso extremo entre throughput e precisão para modelos muito grandes.
Acumulação de Gradientes em Mixed Precision
Técnica onde os gradientes calculados em FP16 são acumulados num buffer FP32 antes da atualização dos pesos, prevenindo a perda de precisão durante a agregação em múltiplos mini-batches.
Poda Sensível à Precisão
Método de poda de rede que considera a sensibilidade de cada camada à redução de precisão, aplicando uma poda mais agressiva em camadas robustas em baixa precisão para maximizar a aceleração.