🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

SGD Distribuído

Variante da descida de gradiente estocástica onde os cálculos de gradientes e as atualizações de parâmetros são distribuídos por várias máquinas ou processadores para acelerar o treinamento de modelos em larga escala.

📖
termos

SGD Síncrono

Abordagem onde todos os workers devem sincronizar seus gradientes a cada iteração, garantindo a consistência do modelo, mas podendo ser limitada pelo nó mais lento (straggler).

📖
termos

SGD Assíncrono

Método onde os workers atualizam os parâmetros do modelo independentemente, sem esperar por sincronização, melhorando o throughput, mas podendo introduzir gradientes atrasados.

📖
termos

Hogwild!

Algoritmo de SGD paralelo sem bloqueio que permite acessos concorrentes aos parâmetros, eficaz para modelos esparsos onde os conflitos de escrita são raros.

📖
termos

SGD Local

Variante onde os workers realizam vários passos de SGD locais em seus dados antes de comunicar para sincronização, reduzindo a sobrecarga de comunicação.

📖
termos

Problema do Straggler

Fenômeno onde alguns nós mais lentos atrasam todo o processo de treinamento distribuído sincronizado, particularmente crítico em sistemas de larga escala.

📖
termos

SGD com Média Elástica

Algoritmo que combina descida de gradiente local com uma força elástica que mantém os parâmetros locais próximos a um centro de massa compartilhado entre os workers.

📖
termos

SGD Resistente a Bizantinos

Variantes robustas de SGD distribuído capazes de tolerar workers falhos ou maliciosos que enviam gradientes incorretos ou arbitrários.

📖
termos

SGD Quantizado

Abordagem que reduz a precisão numérica dos gradientes antes da transmissão, utilizando tipicamente 1-8 bits por parâmetro para minimizar o tráfego de rede.

🔍

Nenhum resultado encontrado