🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Sparse Transformer

Variante que usa padrões de atenção esparsos preditivos para reduzir as conexões computacionais enquanto captura dependências de longa distância. A arquitetura fatoriza a atenção em subconjuntos para otimizar o processamento.

📖
termos

Compressive Transformer

Extensão do Transformer-XL que comprime memórias ocultas antigas em vetores mais densos para preservar o histórico de longo prazo. Esta compressão permite armazenamento eficiente de informações contextuais extensas.

📖
termos

Universal Transformer

Arquitetura adaptativa onde a profundidade é determinada dinamicamente por um mecanismo de parada adaptativo em vez de fixa. Universal Transformer aplica iterativamente transformações de peso compartilhado com atenção adaptativa.

📖
termos

Set Transformer

Arquitetura invariante à permutação baseada em atenção para processar conjuntos de dados sem ordem predefinida. Set Transformer usa blocos de atenção induzida e mecanismos de pooling para operações em conjuntos.

📖
termos

Synthesizer

Variante onde os pesos de atenção são aprendidos diretamente dos embeddings de posição ou gerados por pequenas redes, sem depender do conteúdo dos tokens. Esta abordagem elimina a necessidade de cálculos de similaridade QK.

📖
termos

Linear Transformer

Arquitetura que usa a decomposição kernelizada da atenção para atingir complexidade linear em sequência e memória. Linear Transformer substitui softmax por funções kernel positivas para permitir o reordenamento associativo.

📖
termos

Local Attention

Mecanismo de atenção restrito a vizinhanças locais ao redor de cada posição, reduzindo drasticamente o número de pares de tokens a considerar. Esta abordagem é particularmente eficaz para dados com estrutura local forte.

📖
termos

Dilated Attention

Extensão da atenção de janela deslizante usando padrões dilatados para capturar dependências de longo alcance sem aumentar a complexidade. Os buracos no padrão permitem expansão exponencial do campo receptivo.

📖
termos

Axial Attention

Decomposição da atenção multidimensional em atenções unidimensionais aplicadas sequencialmente em cada eixo. A atenção axial reduz a complexidade de O(n²) para O(n*d) onde d é o número de dimensões.

🔍

Nenhum resultado encontrado