Glossário IA
O dicionário completo da Inteligência Artificial
CUDA
Arquitetura de computação paralela e interface de programação criada pela NVIDIA, permitindo que os desenvolvedores usem GPUs para computação de propósito geral através de extensões para a linguagem C/C++.
Tensor Core
Unidades de computação especializadas integradas em GPUs NVIDIA modernas, projetadas para acelerar exponencialmente as operações de multiplicação e adição de matrizes, fundamentais para redes neurais profundas.
ROCm
Plataforma de computação de código aberto para GPUs AMD, oferecendo um ecossistema completo de linguagens de programação (HIP), bibliotecas (MIOpen) e ferramentas para computação de alto desempenho e IA.
OpenCL
Padrão aberto para escrever programas que são executados em plataformas heterogêneas, incluindo CPUs, GPUs e outros processadores, definindo uma linguagem baseada em C99 e APIs para gerenciamento de dispositivos.
cuDNN
Biblioteca GPU acelerada de primitivas para redes neurais profundas, desenvolvida pela NVIDIA, fornecendo implementações altamente otimizadas para rotinas de convolução, pooling e normalização.
Memory Bandwidth
Taxa máxima de transferência de dados entre a GPU e sua memória de vídeo (VRAM), medida em GB/s, constituindo um fator crítico para o desempenho de cálculos intensivos e o treinamento de grandes modelos de IA.
Kernel
Função principal executada na GPU em um programa de computação paralela, lançada em uma grade de threads e projetada para processar uma porção específica dos dados de forma simultânea.
Warp
Grupo de 32 threads executados no modo SIMT (Single Instruction, Multiple Thread) em GPUs NVIDIA, compartilhando o mesmo fluxo de instruções e constituindo a unidade de agendamento básica para execução paralela.
Stream Multiprocessor (SM)
Unidade de computação básica em uma GPU NVIDIA, contendo núcleos, unidades de memória compartilhada e agendadores, capaz de executar simultaneamente vários blocos de threads e gerenciar sua execução.
Shared Memory
Espaço de memória rápido e de baixa latência, compartilhado entre os threads de um mesmo bloco em uma GPU, permitindo a colaboração e a redução dos acessos à memória global, muito mais lenta.
Unified Memory
Tecnologia de gerenciamento de memória que cria um espaço de endereçamento único entre a CPU e a GPU, eliminando a necessidade de cópias explícitas de dados e simplificando o desenvolvimento de aplicações heterogêneas.
NVLink
Tecnologia de interconexão de alta largura de banda desenvolvida pela NVIDIA, permitindo comunicação direta e rápida entre várias GPUs, superando os limites do barramento PCIe para cálculos distribuídos.
FP16 (Half-Precision)
Formato de número de ponto flutuante de 16 bits, usado para acelerar cálculos e reduzir a pegada de memória em redes neurais, ao custo de uma ligeira perda de precisão frequentemente aceitável.
CUDA Graphs
Tecnologia que permite capturar uma sequência inteira de operações CUDA em um grafo e, em seguida, reexecutá-la com sobrecarga mínima, reduzindo os custos de lançamento de kernels para cargas de trabalho repetitivas.
HIP
API de programação e linguagem de compilação desenvolvida pela AMD, projetada como uma alternativa portátil ao CUDA, permitindo migrar mais facilmente o código CUDA para GPUs AMD.
MIOpen
Biblioteca de otimização para redes neurais profundas na plataforma ROCm da AMD, fornecendo implementações de alto desempenho para camadas de convolução, pooling e normalização.
Capacidade de Computação
Número de versão que descreve as características e funcionalidades de uma GPU NVIDIA, incluindo o número de núcleos, a arquitetura, as instruções suportadas e as capacidades de cálculo, essencial para a compatibilidade de software.
Acesso Coalescido à Memória
Otimização de acesso à memória onde threads adjacentes num warp acedem a localizações de memória contíguas, permitindo combinar estas requisições numa única transação de memória ampla e eficiente.