Glossário IA
O dicionário completo da Inteligência Artificial
Coalescência de Memória
Técnica de otimização em GPU onde os acessos contíguos à memória dos threads são agrupados em transações únicas, reduzindo a largura de banda da memória e aumentando o throughput.
Bloqueio de Cache
Estratégia de particionamento de dados em blocos de tamanho adaptado ao cache para maximizar a reutilização de dados locais e minimizar as falhas de cache.
Alocação NUMA-Aware
Alocação de memória que considera a arquitetura Non-Uniform Memory Access para colocar os dados próximos aos núcleos que os utilizam frequentemente, reduzindo a latência de acesso.
Pooling de Memória
Pré-alocação de um grande bloco de memória subdividido em objetos reutilizáveis, eliminando a sobrecarga de alocações/desalocações dinâmicas frequentes.
Otimização Zero-Copy
Técnica que permite que as operações acessem diretamente os dados sem cópia intermediária entre os espaços de memória, reduzindo o consumo de CPU e a largura de banda.
Tiling de Registradores
Utilização dos registradores do processador para armazenar temporariamente blocos (tiles) de dados, minimizando os acessos à hierarquia de memória mais lenta.
Instruções de Prefetching
Instruções especiais que carregam antecipadamente os dados para o cache antes de sua utilização efetiva, mascarando a latência da memória através da sobreposição cálculo/acesso.
Redução da Pegada de Memória
Conjunto de técnicas (quantização, poda, compressão) visando reduzir o tamanho da memória de modelos de IA sem degradação significativa do desempenho.
Utilização da Memória Compartilhada
Otimização da utilização da memória compartilhada da GPU como um espaço de dados rápido e reutilizável entre threads do mesmo bloco.
Saturação da Largura de Banda da Memória
Estado em que as demandas de acesso à memória excedem a capacidade do barramento de memória, tornando-se o principal gargalo de desempenho computacional.
Migração de Página
Movimentação dinâmica de páginas de memória entre nós NUMA com base nos padrões de acesso para otimizar a localidade dos dados.
Agendamento Consciente da Memória
Agendamento de tarefas que considera as restrições e padrões de acesso à memória para minimizar contenções e maximizar o paralelismo.
Algoritmos Cache-Oblivious
Algoritmos projetados para ter um desempenho eficiente em qualquer hierarquia de cache sem a necessidade de parâmetros específicos para os tamanhos de cache.
Otimização da Hierarquia de Memória
Estratégia global de colocação de dados de acordo com sua frequência de acesso e criticidade temporal através dos níveis da hierarquia de memória.
Layout de Memória do Tensor Core
Organização específica de tensores na memória para maximizar a eficiência das operações matriciais nos Tensor Cores da NVIDIA.
Divergência de Acesso à Memória
Fenômeno em que os threads de um warp da GPU acessam endereços de memória não contíguos, degradando o desempenho pela serialização dos acessos.
Integração de HBM (High Bandwidth Memory)
Arquitetura de memória 3D empilhada oferecendo largura de banda superior para cargas de trabalho intensivas de IA, com otimização específica dos padrões de acesso.
Otimização de E/S Mapeada por Memória
Técnica que permite aos periféricos acessar diretamente a memória do sistema, reduzindo cópias e a sobrecarga da CPU em pipelines de IA.