Glossário IA
O dicionário completo da Inteligência Artificial
Registradores de Memória
A memória mais rápida e privada de cada thread SM (Streaming Multiprocessor), usada para armazenar variáveis locais com uma latência de acesso de um ciclo de clock.
Thrashing de Memória
Fenômeno de desempenho degradado durante acessos à memória não otimizados, gerando uma alta taxa de cache misses e conflitos de bancos de memória.
Conflitos de Banco de Memória
Concorrência de acesso simultâneo a diferentes locais do mesmo banco de memória compartilhada, resultando em serialização dos acessos e redução de desempenho.
Transferência de Memória Assíncrona
Transferências de dados CPU-GPU executadas em paralelo com os cálculos dos kernels via CUDA streams, mascarando a latência da memória e otimizando o uso da GPU.
Alinhamento de Memória
Alinhamento de estruturas de dados em limites de bytes específicos (128, 256, 512 bits) para garantir transações de memória coalescentes e máximas.
Memória Zero-Copy
Técnica que permite à GPU acessar diretamente a memória do host sem cópia, utilizando mapeamento de memória para reduzir o consumo de memória e os tempos de transferência.
CUDA Streams
Sequência de operações executadas em ordem na GPU, permitindo o paralelismo de tarefas e a sobreposição de cálculo-transferência para otimizar o uso dos recursos.
Pool de Memória
Pré-alocação de um bloco de memória da GPU para alocações/desalocações rápidas, reduzindo a fragmentação e os custos de alocação dinâmica durante a execução.
Prefetching de Memória
Carregamento antecipado de dados na memória cache da GPU antes de sua utilização efetiva, mascarando a latência da memória e melhorando o paralelismo instrução-dados.
Paginação de Memória
Gerenciamento de páginas de memória entre CPU e GPU, envolvendo migração sob demanda e despejo baseado no uso para otimizar a utilização da memória limitada da GPU.
Endereçamento Virtual Unificado CUDA
Espaço de endereçamento virtual único combinando memória do host e do dispositivo, permitindo transferências transparentes e ponteiros válidos entre CPU e GPU.
Ocupação de Memória
Proporção de warps ativos por SM impactada pelo uso da memória, determinando o nível de paralelismo alcançável e a eficiência de utilização dos recursos da GPU.