Otimização da Transferência de Dados

📖

termos

Largura de Banda PCIe

Taxa máxima de transferência de dados via barramento PCIe, crucial para a velocidade de comunicação entre CPU e GPU em cargas de trabalho de IA.

📖

termos

NVMe over Fabrics

Protocolo que permite o acesso a armazenamentos NVMe através de uma rede, reduzindo a latência para grandes conjuntos de dados em IA.

📖

termos

GPUDirect Storage

Tecnologia NVIDIA que permite a transferência direta de dados do armazenamento para a memória da GPU, contornando a CPU e a RAM.

📖

termos

Fixação de Memória (Memory Pinning)

Processo de bloqueio de páginas de memória na RAM para garantir acesso DMA (Direct Memory Access) contínuo e rápido pela GPU.

📖

termos

Zero-Copy

Técnica de otimização onde os dados são transferidos diretamente entre dispositivos sem cópia intermediária na memória da CPU.

📖

termos

Throughput dos Tensor Cores

Capacidade de cálculo dos Tensor Cores da GPU, frequentemente limitada pela velocidade de alimentação de dados da memória.

📖

termos

Paralelismo do Pipeline de Dados

Estratégia onde o carregamento, pré-processamento e transferência de dados são executados em paralelo com o cálculo da GPU para mascarar as latências.

📖

termos

Prefetching

Carregamento antecipado de dados na memória da GPU antes que sejam necessários para o cálculo, a fim de manter a GPU ocupada.

📖

termos

Latência Host-para-Dispositivo

Tempo necessário para iniciar e completar uma transferência de dados da CPU (host) para a GPU (dispositivo).

📖

termos

Stream CUDA

Sequência de operações executadas na GPU em uma ordem específica, permitindo a concorrência entre transferências e cálculos.

📖

termos

Consciência NUMA

Otimização das alocações de memória para respeitar a topologia NUMA de servidores multi-CPU, reduzindo as latências de acesso.

📖

termos

GPUDirect RDMA

Tecnologia que permite a transferência direta de dados entre a memória da GPU de diferentes nós via RDMA, sem cópia pela CPU.

📖

termos

Transferência de Dados Assíncrona

Transferência de dados executada em paralelo com os cálculos da GPU, utilizando streams CUDA para mascarar as latências.

📖

termos

Memória Fixada em Página

Memória do sistema não paginável, necessária para transferências DMA assíncronas de alta velocidade para a GPU.

Glossário IA

Largura de Banda PCIe

NVMe over Fabrics

GPUDirect Storage

Fixação de Memória (Memory Pinning)

Zero-Copy

Throughput dos Tensor Cores

Paralelismo do Pipeline de Dados

Prefetching

Latência Host-para-Dispositivo

Stream CUDA

Consciência NUMA

GPUDirect RDMA

Transferência de Dados Assíncrona

Memória Fixada em Página

Nenhum resultado encontrado