Glossário IA
O dicionário completo da Inteligência Artificial
Longformer
Arquitetura Transformer que utiliza uma combinação de atenção local por janela deslizante e atenção global para processar eficientemente sequências muito longas com complexidade linear.
BigBird
Modelo que implementa atenção esparsa através de três padrões: atenção local, global e aleatória, permitindo o processamento de sequências de até 4096 tokens com preservação teórica das propriedades universais.
Sliding Window Attention
Técnica onde cada token só atende a um número fixo de vizinhos em uma janela deslizante, reduzindo a complexidade para O(n*w) onde w é o tamanho da janela.
Dilated Sliding Window
Variante da atenção por janela deslizante que usa saltos (dilatação) para aumentar o campo receptivo sem aumentar a complexidade computacional.
Global Attention
Mecanismo onde certos tokens predefinidos (como tokens [CLS]) podem atrair a atenção de todos os outros tokens, permitindo a propagação de informação por toda a sequência.
Random Attention
Abordagem onde cada token atrai aleatoriamente a atenção sobre um subconjunto de tokens distantes, preservando conexões de longa distância com baixo custo computacional.
Pattern-based Attention
Estratégia que aplica padrões predefinidos de atenção esparsa (como padrões fixos ou aprendidos) para determinar quais pares consulta-chave calcular.
Linear Complexity Attention
Classe de métodos de atenção que reduzem a complexidade algorítmica de O(n²) para O(n), permitindo escalonamento para sequências muito longas.
Atenção baseada em Kernel
Abordagem que utiliza kernels para aproximar a atenção softmax, permitindo cálculos com complexidade linear através de técnicas como FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).
Aproximação de baixo rank
Técnica que aproxima a matriz de atenção por uma decomposição de rank reduzido, reduzindo significativamente os requisitos de memória e computação.
Atenção baseada em Clustering
Método que agrupa primeiro os tokens em clusters semelhantes e depois aplica atenção ao nível dos clusters, reduzindo o número de cálculos necessários.
Atenção de Roteamento
Mecanismo que aprende a rotear as consultas para as chaves mais relevantes usando funções de roteamento baseadas em conteúdo, evitando cálculos desnecessários.
Reformer
Arquitetura que utiliza a sensibilidade à localidade (LSH) para limitar os cálculos de atenção aos pares mais semelhantes, com complexidade quase linear em comprimento de sequência.
Performer
Modelo baseado na atenção FAVOR+ que aproxima eficientemente a atenção softmax através de características aleatórias ortogonais positivas, permitindo complexidade linear.
Linformer
Arquitetura que projeta a matriz chave-valor em um espaço de dimensão inferior, transformando a complexidade de O(n²) para O(n*k) onde k << n.
Transformer de Roteamento
Modelo que usa roteamento baseado em k-means para agrupar tokens e aplicar atenção seletivamente, otimizando os cálculos para dependências de longa distância.
Sinkhorn Sorting
Algoritmo que utiliza a iteração de Sinkhorn para transformar a atenção em permutação diferenciável, aplicado em arquiteturas de atenção esparsa.
Efficient Attention
Paradigma que engloba todas as variantes de atenção que visam reduzir a complexidade computacional, preservando as capacidades de modelagem dos Transformers.