Otimização de Tensor Cores

📖

termos

Operações FP16

Cálculos de ponto flutuante de meia precisão (16 bits) que oferecem até 8x mais throughput do que FP32 nos Tensor Cores, com redução significativa da largura de banda da memória e do consumo de energia.

📖

termos

TensorFloat-32 (TF32)

Formato numérico híbrido da NVIDIA que utiliza 8 bits de expoente (como FP32) e 10 bits de mantissa (como FP16), oferecendo um compromisso ideal entre faixa dinâmica e precisão para os Tensor Cores Ampere.

📖

termos

Warp Matrix Multiply-Accumulate (WMMA)

API CUDA que permite que warps de 32 threads realizem eficientemente operações de multiplicação-acumulação de matrizes diretamente nos Tensor Cores com acesso a registradores fragmentados.

📖

termos

CUDA Kernels para Tensor Cores

Programas de GPU especificamente otimizados para explorar as instruções do Tensor Core, utilizando as primitivas WMMA ou bibliotecas de alto nível para o máximo throughput de matrizes.

📖

termos

Fragmentação de Matrizes

Técnica de particionamento de matrizes em fragmentos menores distribuídos entre os threads de um warp para execução paralela nas unidades Tensor Core, otimizando o uso dos recursos de computação.

📖

termos

Utilização do Tensor Core

Métrica que mede a porcentagem de ciclos em que os Tensor Cores realizam cálculos úteis, crucial para avaliar a eficácia das otimizações e identificar gargalos.

📖

termos

Quantização INT8 para Inferência

Conversão dos pesos e ativações de redes neurais para inteiros de 8 bits, permitindo até 32x de aceleração nos Tensor Cores com degradação controlada da precisão.

📖

termos

Biblioteca CublasLt Tensor Core

Extensão da biblioteca CUBLAS otimizada para Tensor Cores, oferecendo rotinas GEMM (General Matrix Multiply) de alto desempenho com suporte nativo para formatos de precisão mista.

📖

termos

Mosaico de Memória Compartilhada

Estratégia de organização de dados na memória compartilhada da GPU em blocos (tiles) ideais para acesso aos Tensor Cores, minimizando conflitos de banco e maximizando a largura de banda.

📖

termos

Agendamento de Matrizes em Nível de Warp

Agendamento de operações matriciais no nível dos warps para maximizar a utilização dos pipelines dos Tensor Cores, levando em consideração latências e dependências de dados.

📖

termos

Pressão de Registradores do Tensor Core

Restrição relacionada ao número limitado de registradores por SM, afetando a capacidade de paralelizar operações do Tensor Core e exigindo um equilíbrio entre ocupação e utilização eficiente das unidades.

📖

termos

Benchmarks de Deep Learning

Conjuntos de testes como MLPerf que avaliam o desempenho das otimizações do Tensor Core em cargas de trabalho reais de treinamento e inferência de redes neurais.

📖

termos

Precisão Mista Automática (AMP)

Técnica automática de seleção de precisão operacional que identifica operações do Tensor Core elegíveis e mantém cópias FP32 para estabilidade numérica.

📖

termos

Coalescência de Memória do Tensor Core

Otimização dos acessos à memória para se alinhar com os padrões de acesso dos Tensor Cores, agrupando as transações em acessos contíguos para maximizar o throughput.

📖

termos

Suporte a Matrizes Esparsas

Capacidade dos Tensor Cores Ampere de processar eficientemente matrizes estruturadas esparsas, oferecendo até 2x de aceleração para redes neurais com esparsidade.

Glossário IA

Operações FP16

TensorFloat-32 (TF32)

Warp Matrix Multiply-Accumulate (WMMA)

CUDA Kernels para Tensor Cores

Fragmentação de Matrizes

Utilização do Tensor Core

Quantização INT8 para Inferência

Biblioteca CublasLt Tensor Core

Mosaico de Memória Compartilhada

Agendamento de Matrizes em Nível de Warp

Pressão de Registradores do Tensor Core

Benchmarks de Deep Learning

Precisão Mista Automática (AMP)

Coalescência de Memória do Tensor Core

Suporte a Matrizes Esparsas

Nenhum resultado encontrado