🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Paralelismo de Sequência

Forma de paralelismo que divide a dimensão da sequência dos tensores de entrada em vários aceleradores, utilizada para modelos do tipo Transformer com sequências longas.

📖
termos

Paralelismo de Especialistas

Técnica específica para modelos densos de Mistura de Especialistas (MoE) onde as diferentes redes de especialistas são distribuídas em aceleradores distintos para equilibrar a carga de computação.

📖
termos

Paralelismo de Dados Fragmentado

Combinação do paralelismo de dados e da estratégia ZeRO, onde os pesos do modelo são particionados (fragmentados) entre os trabalhadores, mantendo o paralelismo de dados.

📖
termos

Checkpointing de Ativação

Técnica de memória que consiste em não armazenar as ativações intermediárias durante a passagem para frente, mas sim recalculá-las durante a passagem para trás para economizar memória da GPU.

📖
termos

Paralelismo Híbrido

Abordagem que combina várias estratégias de paralelismo (ex: tensor, pipeline e dados) para maximizar a utilização de recursos e escalar o treinamento em milhares de aceleradores.

📖
termos

Comunicação All-Reduce

Operação de comunicação coletiva essencial para o paralelismo de dados, onde os gradientes locais de cada acelerador são agregados e redistribuídos para sincronizar os pesos do modelo.

📖
termos

Fatiamento de Tensor

Operação fundamental do paralelismo de tensor que consiste em dividir um tensor ao longo de uma dimensão específica (ex: linha, coluna) para distribuí-lo em vários dispositivos.

📖
termos

GPipe

Implementação de paralelismo de pipeline que utiliza micro-batching e checkpointing de ativações para treinar eficientemente redes neurais muito grandes.

📖
termos

Megatron-LM

Arquitetura de paralelismo de tensor desenvolvida pela NVIDIA, projetada para treinar modelos de linguagem massivos particionando matrizes de peso e gradientes.

📖
termos

DeepSpeed

Biblioteca de otimização da Microsoft que implementa técnicas avançadas como ZeRO, paralelismo híbrido e compressão de memória para o treinamento de modelos em larga escala.

📖
termos

Descarregamento

Estratégia de gerenciamento de memória onde os dados (pesos, gradientes, ativações) são movidos dinamicamente entre a memória GPU rápida e a memória CPU mais lenta, mas mais vasta.

🔍

Nenhum resultado encontrado