Computação GPU para IA

📖

termos

CUDA

Arquitetura de computação paralela e interface de programação criada pela NVIDIA, permitindo que os desenvolvedores usem GPUs para computação de propósito geral através de extensões para a linguagem C/C++.

📖

termos

Tensor Core

Unidades de computação especializadas integradas em GPUs NVIDIA modernas, projetadas para acelerar exponencialmente as operações de multiplicação e adição de matrizes, fundamentais para redes neurais profundas.

📖

termos

ROCm

Plataforma de computação de código aberto para GPUs AMD, oferecendo um ecossistema completo de linguagens de programação (HIP), bibliotecas (MIOpen) e ferramentas para computação de alto desempenho e IA.

📖

termos

OpenCL

Padrão aberto para escrever programas que são executados em plataformas heterogêneas, incluindo CPUs, GPUs e outros processadores, definindo uma linguagem baseada em C99 e APIs para gerenciamento de dispositivos.

📖

termos

cuDNN

Biblioteca GPU acelerada de primitivas para redes neurais profundas, desenvolvida pela NVIDIA, fornecendo implementações altamente otimizadas para rotinas de convolução, pooling e normalização.

📖

termos

Memory Bandwidth

Taxa máxima de transferência de dados entre a GPU e sua memória de vídeo (VRAM), medida em GB/s, constituindo um fator crítico para o desempenho de cálculos intensivos e o treinamento de grandes modelos de IA.

📖

termos

Kernel

Função principal executada na GPU em um programa de computação paralela, lançada em uma grade de threads e projetada para processar uma porção específica dos dados de forma simultânea.

📖

termos

Warp

Grupo de 32 threads executados no modo SIMT (Single Instruction, Multiple Thread) em GPUs NVIDIA, compartilhando o mesmo fluxo de instruções e constituindo a unidade de agendamento básica para execução paralela.

📖

termos

Stream Multiprocessor (SM)

Unidade de computação básica em uma GPU NVIDIA, contendo núcleos, unidades de memória compartilhada e agendadores, capaz de executar simultaneamente vários blocos de threads e gerenciar sua execução.

📖

termos

Shared Memory

Espaço de memória rápido e de baixa latência, compartilhado entre os threads de um mesmo bloco em uma GPU, permitindo a colaboração e a redução dos acessos à memória global, muito mais lenta.

📖

termos

Unified Memory

Tecnologia de gerenciamento de memória que cria um espaço de endereçamento único entre a CPU e a GPU, eliminando a necessidade de cópias explícitas de dados e simplificando o desenvolvimento de aplicações heterogêneas.

📖

termos

NVLink

Tecnologia de interconexão de alta largura de banda desenvolvida pela NVIDIA, permitindo comunicação direta e rápida entre várias GPUs, superando os limites do barramento PCIe para cálculos distribuídos.

📖

termos

FP16 (Half-Precision)

Formato de número de ponto flutuante de 16 bits, usado para acelerar cálculos e reduzir a pegada de memória em redes neurais, ao custo de uma ligeira perda de precisão frequentemente aceitável.

📖

termos

CUDA Graphs

Tecnologia que permite capturar uma sequência inteira de operações CUDA em um grafo e, em seguida, reexecutá-la com sobrecarga mínima, reduzindo os custos de lançamento de kernels para cargas de trabalho repetitivas.

📖

termos

HIP

API de programação e linguagem de compilação desenvolvida pela AMD, projetada como uma alternativa portátil ao CUDA, permitindo migrar mais facilmente o código CUDA para GPUs AMD.

📖

termos

MIOpen

Biblioteca de otimização para redes neurais profundas na plataforma ROCm da AMD, fornecendo implementações de alto desempenho para camadas de convolução, pooling e normalização.

📖

termos

Capacidade de Computação

Número de versão que descreve as características e funcionalidades de uma GPU NVIDIA, incluindo o número de núcleos, a arquitetura, as instruções suportadas e as capacidades de cálculo, essencial para a compatibilidade de software.

📖

termos

Acesso Coalescido à Memória

Otimização de acesso à memória onde threads adjacentes num warp acedem a localizações de memória contíguas, permitindo combinar estas requisições numa única transação de memória ampla e eficiente.

Glossário IA

CUDA

Tensor Core

ROCm

OpenCL

cuDNN

Memory Bandwidth

Kernel

Warp

Stream Multiprocessor (SM)

Shared Memory

Unified Memory

NVLink

FP16 (Half-Precision)

CUDA Graphs

HIP

MIOpen

Capacidade de Computação

Acesso Coalescido à Memória

Nenhum resultado encontrado