Atenção Esparsa - Glossário IA

📖

termos

Longformer

Arquitetura Transformer que utiliza uma combinação de atenção local por janela deslizante e atenção global para processar eficientemente sequências muito longas com complexidade linear.

📖

termos

Modelo que implementa atenção esparsa através de três padrões: atenção local, global e aleatória, permitindo o processamento de sequências de até 4096 tokens com preservação teórica das propriedades universais.

📖

termos

Sliding Window Attention

Técnica onde cada token só atende a um número fixo de vizinhos em uma janela deslizante, reduzindo a complexidade para O(n*w) onde w é o tamanho da janela.

📖

termos

Dilated Sliding Window

Variante da atenção por janela deslizante que usa saltos (dilatação) para aumentar o campo receptivo sem aumentar a complexidade computacional.

📖

termos

Global Attention

Mecanismo onde certos tokens predefinidos (como tokens [CLS]) podem atrair a atenção de todos os outros tokens, permitindo a propagação de informação por toda a sequência.

📖

termos

Random Attention

Abordagem onde cada token atrai aleatoriamente a atenção sobre um subconjunto de tokens distantes, preservando conexões de longa distância com baixo custo computacional.

📖

termos

Pattern-based Attention

Estratégia que aplica padrões predefinidos de atenção esparsa (como padrões fixos ou aprendidos) para determinar quais pares consulta-chave calcular.

📖

termos

Linear Complexity Attention

Classe de métodos de atenção que reduzem a complexidade algorítmica de O(n²) para O(n), permitindo escalonamento para sequências muito longas.

📖

termos

Atenção baseada em Kernel

Abordagem que utiliza kernels para aproximar a atenção softmax, permitindo cálculos com complexidade linear através de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).

📖

termos

Aproximação de baixo rank

Técnica que aproxima a matriz de atenção por uma decomposição de rank reduzido, reduzindo significativamente os requisitos de memória e computação.

📖

termos

Atenção baseada em Clustering

Método que agrupa primeiro os tokens em clusters semelhantes e depois aplica atenção ao nível dos clusters, reduzindo o número de cálculos necessários.

📖

termos

Atenção de Roteamento

Mecanismo que aprende a rotear as consultas para as chaves mais relevantes usando funções de roteamento baseadas em conteúdo, evitando cálculos desnecessários.

📖

termos

Reformer

Arquitetura que utiliza a sensibilidade à localidade (LSH) para limitar os cálculos de atenção aos pares mais semelhantes, com complexidade quase linear em comprimento de sequência.

📖

termos

Performer

Modelo baseado na atenção FAVOR+ que aproxima eficientemente a atenção softmax através de características aleatórias ortogonais positivas, permitindo complexidade linear.

📖

termos

Linformer

Arquitetura que projeta a matriz chave-valor em um espaço de dimensão inferior, transformando a complexidade de O(n²) para O(n*k) onde k << n.

📖

termos

Transformer de Roteamento

Modelo que usa roteamento baseado em k-means para agrupar tokens e aplicar atenção seletivamente, otimizando os cálculos para dependências de longa distância.

📖

termos

Sinkhorn Sorting

Algoritmo que utiliza a iteração de Sinkhorn para transformar a atenção em permutação diferenciável, aplicado em arquiteturas de atenção esparsa.

📖

termos

Efficient Attention

Paradigma que engloba todas as variantes de atenção que visam reduzir a complexidade computacional, preservando as capacidades de modelagem dos Transformers.

Glossário IA

Longformer

BigBird

Sliding Window Attention

Dilated Sliding Window

Global Attention

Random Attention

Pattern-based Attention

Linear Complexity Attention

Atenção baseada em Kernel

Aproximação de baixo rank

Atenção baseada em Clustering

Atenção de Roteamento

Reformer

Performer

Linformer

Transformer de Roteamento

Sinkhorn Sorting

Efficient Attention

Nenhum resultado encontrado