Glossário IA
O dicionário completo da Inteligência Artificial
Operações FP16
Cálculos de ponto flutuante de meia precisão (16 bits) que oferecem até 8x mais throughput do que FP32 nos Tensor Cores, com redução significativa da largura de banda da memória e do consumo de energia.
TensorFloat-32 (TF32)
Formato numérico híbrido da NVIDIA que utiliza 8 bits de expoente (como FP32) e 10 bits de mantissa (como FP16), oferecendo um compromisso ideal entre faixa dinâmica e precisão para os Tensor Cores Ampere.
Warp Matrix Multiply-Accumulate (WMMA)
API CUDA que permite que warps de 32 threads realizem eficientemente operações de multiplicação-acumulação de matrizes diretamente nos Tensor Cores com acesso a registradores fragmentados.
CUDA Kernels para Tensor Cores
Programas de GPU especificamente otimizados para explorar as instruções do Tensor Core, utilizando as primitivas WMMA ou bibliotecas de alto nível para o máximo throughput de matrizes.
Fragmentação de Matrizes
Técnica de particionamento de matrizes em fragmentos menores distribuídos entre os threads de um warp para execução paralela nas unidades Tensor Core, otimizando o uso dos recursos de computação.
Utilização do Tensor Core
Métrica que mede a porcentagem de ciclos em que os Tensor Cores realizam cálculos úteis, crucial para avaliar a eficácia das otimizações e identificar gargalos.
Quantização INT8 para Inferência
Conversão dos pesos e ativações de redes neurais para inteiros de 8 bits, permitindo até 32x de aceleração nos Tensor Cores com degradação controlada da precisão.
Biblioteca CublasLt Tensor Core
Extensão da biblioteca CUBLAS otimizada para Tensor Cores, oferecendo rotinas GEMM (General Matrix Multiply) de alto desempenho com suporte nativo para formatos de precisão mista.
Mosaico de Memória Compartilhada
Estratégia de organização de dados na memória compartilhada da GPU em blocos (tiles) ideais para acesso aos Tensor Cores, minimizando conflitos de banco e maximizando a largura de banda.
Agendamento de Matrizes em Nível de Warp
Agendamento de operações matriciais no nível dos warps para maximizar a utilização dos pipelines dos Tensor Cores, levando em consideração latências e dependências de dados.
Pressão de Registradores do Tensor Core
Restrição relacionada ao número limitado de registradores por SM, afetando a capacidade de paralelizar operações do Tensor Core e exigindo um equilíbrio entre ocupação e utilização eficiente das unidades.
Benchmarks de Deep Learning
Conjuntos de testes como MLPerf que avaliam o desempenho das otimizações do Tensor Core em cargas de trabalho reais de treinamento e inferência de redes neurais.
Precisão Mista Automática (AMP)
Técnica automática de seleção de precisão operacional que identifica operações do Tensor Core elegíveis e mantém cópias FP32 para estabilidade numérica.
Coalescência de Memória do Tensor Core
Otimização dos acessos à memória para se alinhar com os padrões de acesso dos Tensor Cores, agrupando as transações em acessos contíguos para maximizar o throughput.
Suporte a Matrizes Esparsas
Capacidade dos Tensor Cores Ampere de processar eficientemente matrizes estruturadas esparsas, oferecendo até 2x de aceleração para redes neurais com esparsidade.