Glossário IA
O dicionário completo da Inteligência Artificial
Paralelismo de Sequência
Forma de paralelismo que divide a dimensão da sequência dos tensores de entrada em vários aceleradores, utilizada para modelos do tipo Transformer com sequências longas.
Paralelismo de Especialistas
Técnica específica para modelos densos de Mistura de Especialistas (MoE) onde as diferentes redes de especialistas são distribuídas em aceleradores distintos para equilibrar a carga de computação.
Paralelismo de Dados Fragmentado
Combinação do paralelismo de dados e da estratégia ZeRO, onde os pesos do modelo são particionados (fragmentados) entre os trabalhadores, mantendo o paralelismo de dados.
Checkpointing de Ativação
Técnica de memória que consiste em não armazenar as ativações intermediárias durante a passagem para frente, mas sim recalculá-las durante a passagem para trás para economizar memória da GPU.
Paralelismo Híbrido
Abordagem que combina várias estratégias de paralelismo (ex: tensor, pipeline e dados) para maximizar a utilização de recursos e escalar o treinamento em milhares de aceleradores.
Comunicação All-Reduce
Operação de comunicação coletiva essencial para o paralelismo de dados, onde os gradientes locais de cada acelerador são agregados e redistribuídos para sincronizar os pesos do modelo.
Fatiamento de Tensor
Operação fundamental do paralelismo de tensor que consiste em dividir um tensor ao longo de uma dimensão específica (ex: linha, coluna) para distribuí-lo em vários dispositivos.
GPipe
Implementação de paralelismo de pipeline que utiliza micro-batching e checkpointing de ativações para treinar eficientemente redes neurais muito grandes.
Megatron-LM
Arquitetura de paralelismo de tensor desenvolvida pela NVIDIA, projetada para treinar modelos de linguagem massivos particionando matrizes de peso e gradientes.
DeepSpeed
Biblioteca de otimização da Microsoft que implementa técnicas avançadas como ZeRO, paralelismo híbrido e compressão de memória para o treinamento de modelos em larga escala.
Descarregamento
Estratégia de gerenciamento de memória onde os dados (pesos, gradientes, ativações) são movidos dinamicamente entre a memória GPU rápida e a memória CPU mais lenta, mas mais vasta.