🏠 Início
Avaliações
📊 Todos os Benchmarks 🦖 Dinossauro v1 🦖 Dinossauro v2 ✅ Aplicações To-Do List 🎨 Páginas Livres Criativas 🎯 FSACB - Showcase Definitivo 🌍 Benchmark de Tradução
Modelos
🏆 Top 10 Modelos 🆓 Modelos Gratuitos 📋 Todos os Modelos ⚙️ Kilo Code
Recursos
💬 Biblioteca de Prompts 📖 Glossário de IA 🔗 Links Úteis

Glossário IA

O dicionário completo da Inteligência Artificial

242
categorias
3.306
subcategorias
39.932
termos
📖
termos

Longformer

Arquitetura Transformer que utiliza uma combinação de atenção local por janela deslizante e atenção global para processar eficientemente sequências muito longas com complexidade linear.

📖
termos

BigBird

Modelo que implementa atenção esparsa através de três padrões: atenção local, global e aleatória, permitindo o processamento de sequências de até 4096 tokens com preservação teórica das propriedades universais.

📖
termos

Sliding Window Attention

Técnica onde cada token só atende a um número fixo de vizinhos em uma janela deslizante, reduzindo a complexidade para O(n*w) onde w é o tamanho da janela.

📖
termos

Dilated Sliding Window

Variante da atenção por janela deslizante que usa saltos (dilatação) para aumentar o campo receptivo sem aumentar a complexidade computacional.

📖
termos

Global Attention

Mecanismo onde certos tokens predefinidos (como tokens [CLS]) podem atrair a atenção de todos os outros tokens, permitindo a propagação de informação por toda a sequência.

📖
termos

Random Attention

Abordagem onde cada token atrai aleatoriamente a atenção sobre um subconjunto de tokens distantes, preservando conexões de longa distância com baixo custo computacional.

📖
termos

Pattern-based Attention

Estratégia que aplica padrões predefinidos de atenção esparsa (como padrões fixos ou aprendidos) para determinar quais pares consulta-chave calcular.

📖
termos

Linear Complexity Attention

Classe de métodos de atenção que reduzem a complexidade algorítmica de O(n²) para O(n), permitindo escalonamento para sequências muito longas.

📖
termos

Atenção baseada em Kernel

Abordagem que utiliza kernels para aproximar a atenção softmax, permitindo cálculos com complexidade linear através de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖
termos

Aproximação de baixo rank

Técnica que aproxima a matriz de atenção por uma decomposição de rank reduzido, reduzindo significativamente os requisitos de memória e computação.

📖
termos

Atenção baseada em Clustering

Método que agrupa primeiro os tokens em clusters semelhantes e depois aplica atenção ao nível dos clusters, reduzindo o número de cálculos necessários.

📖
termos

Atenção de Roteamento

Mecanismo que aprende a rotear as consultas para as chaves mais relevantes usando funções de roteamento baseadas em conteúdo, evitando cálculos desnecessários.

📖
termos

Reformer

Arquitetura que utiliza a sensibilidade à localidade (LSH) para limitar os cálculos de atenção aos pares mais semelhantes, com complexidade quase linear em comprimento de sequência.

📖
termos

Performer

Modelo baseado na atenção FAVOR+ que aproxima eficientemente a atenção softmax através de características aleatórias ortogonais positivas, permitindo complexidade linear.

📖
termos

Linformer

Arquitetura que projeta a matriz chave-valor em um espaço de dimensão inferior, transformando a complexidade de O(n²) para O(n*k) onde k << n.

📖
termos

Transformer de Roteamento

Modelo que usa roteamento baseado em k-means para agrupar tokens e aplicar atenção seletivamente, otimizando os cálculos para dependências de longa distância.

📖
termos

Sinkhorn Sorting

Algoritmo que utiliza a iteração de Sinkhorn para transformar a atenção em permutação diferenciável, aplicado em arquiteturas de atenção esparsa.

📖
termos

Efficient Attention

Paradigma que engloba todas as variantes de atenção que visam reduzir a complexidade computacional, preservando as capacidades de modelagem dos Transformers.

🔍

Nenhum resultado encontrado