Otimização de Memória HPC

📖

termos

Coalescência de Memória

Técnica de otimização em GPU onde os acessos contíguos à memória dos threads são agrupados em transações únicas, reduzindo a largura de banda da memória e aumentando o throughput.

📖

termos

Bloqueio de Cache

Estratégia de particionamento de dados em blocos de tamanho adaptado ao cache para maximizar a reutilização de dados locais e minimizar as falhas de cache.

📖

termos

Alocação NUMA-Aware

Alocação de memória que considera a arquitetura Non-Uniform Memory Access para colocar os dados próximos aos núcleos que os utilizam frequentemente, reduzindo a latência de acesso.

📖

termos

Pooling de Memória

Pré-alocação de um grande bloco de memória subdividido em objetos reutilizáveis, eliminando a sobrecarga de alocações/desalocações dinâmicas frequentes.

📖

termos

Otimização Zero-Copy

Técnica que permite que as operações acessem diretamente os dados sem cópia intermediária entre os espaços de memória, reduzindo o consumo de CPU e a largura de banda.

📖

termos

Tiling de Registradores

Utilização dos registradores do processador para armazenar temporariamente blocos (tiles) de dados, minimizando os acessos à hierarquia de memória mais lenta.

📖

termos

Instruções de Prefetching

Instruções especiais que carregam antecipadamente os dados para o cache antes de sua utilização efetiva, mascarando a latência da memória através da sobreposição cálculo/acesso.

📖

termos

Redução da Pegada de Memória

Conjunto de técnicas (quantização, poda, compressão) visando reduzir o tamanho da memória de modelos de IA sem degradação significativa do desempenho.

📖

termos

Utilização da Memória Compartilhada

Otimização da utilização da memória compartilhada da GPU como um espaço de dados rápido e reutilizável entre threads do mesmo bloco.

📖

termos

Saturação da Largura de Banda da Memória

Estado em que as demandas de acesso à memória excedem a capacidade do barramento de memória, tornando-se o principal gargalo de desempenho computacional.

📖

termos

Migração de Página

Movimentação dinâmica de páginas de memória entre nós NUMA com base nos padrões de acesso para otimizar a localidade dos dados.

📖

termos

Agendamento Consciente da Memória

Agendamento de tarefas que considera as restrições e padrões de acesso à memória para minimizar contenções e maximizar o paralelismo.

📖

termos

Algoritmos Cache-Oblivious

Algoritmos projetados para ter um desempenho eficiente em qualquer hierarquia de cache sem a necessidade de parâmetros específicos para os tamanhos de cache.

📖

termos

Otimização da Hierarquia de Memória

Estratégia global de colocação de dados de acordo com sua frequência de acesso e criticidade temporal através dos níveis da hierarquia de memória.

📖

termos

Layout de Memória do Tensor Core

Organização específica de tensores na memória para maximizar a eficiência das operações matriciais nos Tensor Cores da NVIDIA.

📖

termos

Divergência de Acesso à Memória

Fenômeno em que os threads de um warp da GPU acessam endereços de memória não contíguos, degradando o desempenho pela serialização dos acessos.

📖

termos

Integração de HBM (High Bandwidth Memory)

Arquitetura de memória 3D empilhada oferecendo largura de banda superior para cargas de trabalho intensivas de IA, com otimização específica dos padrões de acesso.

📖

termos

Otimização de E/S Mapeada por Memória

Técnica que permite aos periféricos acessar diretamente a memória do sistema, reduzindo cópias e a sobrecarga da CPU em pipelines de IA.

Glossário IA

Coalescência de Memória

Bloqueio de Cache

Alocação NUMA-Aware

Pooling de Memória

Otimização Zero-Copy

Tiling de Registradores

Instruções de Prefetching

Redução da Pegada de Memória

Utilização da Memória Compartilhada

Saturação da Largura de Banda da Memória

Migração de Página

Agendamento Consciente da Memória

Algoritmos Cache-Oblivious

Otimização da Hierarquia de Memória

Layout de Memória do Tensor Core

Divergência de Acesso à Memória

Integração de HBM (High Bandwidth Memory)

Otimização de E/S Mapeada por Memória

Nenhum resultado encontrado