Computação de Precisão Mista

📖

termos

Computação de Precisão Mista

Técnica de computação que utiliza simultaneamente múltiplos formatos numéricos de precisão variável (FP64, FP32, FP16, INT8) para otimizar o equilíbrio entre desempenho de memória, taxa de transferência de cálculo e precisão dos resultados em aplicações de IA.

📖

termos

FP16 (Ponto Flutuante de Meia Precisão)

Formato de representação numérica de 16 bits que inclui 1 bit de sinal, 5 bits de expoente e 10 bits de mantissa, utilizado para acelerar cálculos e reduzir a pegada de memória ao custo de uma precisão reduzida.

📖

termos

FP32 (Ponto Flutuante de Precisão Simples)

Formato de representação numérica padrão de 32 bits com 1 bit de sinal, 8 bits de expoente e 23 bits de mantissa, constituindo a referência de precisão para o treinamento da maioria dos modelos de IA.

📖

termos

INT8 (Inteiro de 8 bits)

Formato de quantização de 8 bits que representa números inteiros com sinal, principalmente utilizado para inferência a fim de maximizar a taxa de transferência de cálculo e minimizar o consumo de energia dos aceleradores de hardware.

📖

termos

Tensor Cores

Unidades de computação especializadas integradas em GPUs modernas (NVIDIA) projetadas para executar operações de multiplicação-acumulação matricial em precisão mista (FP16/FP32) de forma altamente paralela.

📖

termos

Escalonamento Dinâmico de Perda (Dynamic Loss Scaling)

Variante adaptativa do escalonamento de perda onde o fator de escala é ajustado dinamicamente durante o treinamento, aumentando em caso de estabilidade e reduzindo em caso de overflow para otimizar a convergência.

📖

termos

Pesos Mestre (Master Weights)

Cópia dos pesos do modelo mantida em FP32 (ou FP64) durante o treinamento em precisão mista, servindo como referência de precisão para as atualizações de pesos enquanto os cálculos forward/backward são realizados em FP16.

📖

termos

Precisão Mista Automática (AMP)

Funcionalidade dos frameworks de IA (PyTorch, TensorFlow) que seleciona automaticamente as operações a serem executadas em FP16 ou FP32, gerencia a conversão de tipos e aplica o escalonamento de perda de forma transparente.

📖

termos

Unidades de Processamento Vetorial (VPU)

Aceleradores de hardware especializados otimizados para cálculos de precisão inteira (INT8) e baixa precisão, projetados para inferência eficiente de redes neurais em dispositivos edge.

📖

termos

Aceleração por Esparsidade

Técnica combinada com mixed precision que explora os zeros em tensores para pular cálculos desnecessários, reduzindo a largura de banda da memória e aumentando o throughput efetivo das operações matriciais.

📖

termos

Análise de Estabilidade Numérica

Avaliação sistemática do impacto da redução de precisão na convergência e na precisão final de um modelo, identificando as camadas sensíveis que necessitam de manutenção em FP32 numa estratégia de mixed precision.

📖

termos

FP8 (Ponto Flutuante de 8 bits)

Formato emergente de representação de 8 bits com diferentes variantes (E4M3, E5M2) otimizadas para treino e inferência, oferecendo um compromisso extremo entre throughput e precisão para modelos muito grandes.

📖

termos

Acumulação de Gradientes em Mixed Precision

Técnica onde os gradientes calculados em FP16 são acumulados num buffer FP32 antes da atualização dos pesos, prevenindo a perda de precisão durante a agregação em múltiplos mini-batches.

📖

termos

Poda Sensível à Precisão

Método de poda de rede que considera a sensibilidade de cada camada à redução de precisão, aplicando uma poda mais agressiva em camadas robustas em baixa precisão para maximizar a aceleração.

Glossário IA