Glossário IA
O dicionário completo da Inteligência Artificial
Sparse Transformer
Variante que usa padrões de atenção esparsos preditivos para reduzir as conexões computacionais enquanto captura dependências de longa distância. A arquitetura fatoriza a atenção em subconjuntos para otimizar o processamento.
Compressive Transformer
Extensão do Transformer-XL que comprime memórias ocultas antigas em vetores mais densos para preservar o histórico de longo prazo. Esta compressão permite armazenamento eficiente de informações contextuais extensas.
Universal Transformer
Arquitetura adaptativa onde a profundidade é determinada dinamicamente por um mecanismo de parada adaptativo em vez de fixa. Universal Transformer aplica iterativamente transformações de peso compartilhado com atenção adaptativa.
Set Transformer
Arquitetura invariante à permutação baseada em atenção para processar conjuntos de dados sem ordem predefinida. Set Transformer usa blocos de atenção induzida e mecanismos de pooling para operações em conjuntos.
Synthesizer
Variante onde os pesos de atenção são aprendidos diretamente dos embeddings de posição ou gerados por pequenas redes, sem depender do conteúdo dos tokens. Esta abordagem elimina a necessidade de cálculos de similaridade QK.
Linear Transformer
Arquitetura que usa a decomposição kernelizada da atenção para atingir complexidade linear em sequência e memória. Linear Transformer substitui softmax por funções kernel positivas para permitir o reordenamento associativo.
Local Attention
Mecanismo de atenção restrito a vizinhanças locais ao redor de cada posição, reduzindo drasticamente o número de pares de tokens a considerar. Esta abordagem é particularmente eficaz para dados com estrutura local forte.
Dilated Attention
Extensão da atenção de janela deslizante usando padrões dilatados para capturar dependências de longo alcance sem aumentar a complexidade. Os buracos no padrão permitem expansão exponencial do campo receptivo.
Axial Attention
Decomposição da atenção multidimensional em atenções unidimensionais aplicadas sequencialmente em cada eixo. A atenção axial reduz a complexidade de O(n²) para O(n*d) onde d é o número de dimensões.