Transformers Eficientes - Glossário IA

📖

termos

Sparse Transformer

Variante que usa padrões de atenção esparsos preditivos para reduzir as conexões computacionais enquanto captura dependências de longa distância. A arquitetura fatoriza a atenção em subconjuntos para otimizar o processamento.

📖

termos

Compressive Transformer

Extensão do Transformer-XL que comprime memórias ocultas antigas em vetores mais densos para preservar o histórico de longo prazo. Esta compressão permite armazenamento eficiente de informações contextuais extensas.

📖

termos

Universal Transformer

Arquitetura adaptativa onde a profundidade é determinada dinamicamente por um mecanismo de parada adaptativo em vez de fixa. Universal Transformer aplica iterativamente transformações de peso compartilhado com atenção adaptativa.

📖

termos

Set Transformer

Arquitetura invariante à permutação baseada em atenção para processar conjuntos de dados sem ordem predefinida. Set Transformer usa blocos de atenção induzida e mecanismos de pooling para operações em conjuntos.

📖

termos

Synthesizer

Variante onde os pesos de atenção são aprendidos diretamente dos embeddings de posição ou gerados por pequenas redes, sem depender do conteúdo dos tokens. Esta abordagem elimina a necessidade de cálculos de similaridade QK.

📖

termos

Linear Transformer

Arquitetura que usa a decomposição kernelizada da atenção para atingir complexidade linear em sequência e memória. Linear Transformer substitui softmax por funções kernel positivas para permitir o reordenamento associativo.

📖

termos

Local Attention

Mecanismo de atenção restrito a vizinhanças locais ao redor de cada posição, reduzindo drasticamente o número de pares de tokens a considerar. Esta abordagem é particularmente eficaz para dados com estrutura local forte.

📖

termos

Dilated Attention

Extensão da atenção de janela deslizante usando padrões dilatados para capturar dependências de longo alcance sem aumentar a complexidade. Os buracos no padrão permitem expansão exponencial do campo receptivo.

📖

termos

Axial Attention

Decomposição da atenção multidimensional em atenções unidimensionais aplicadas sequencialmente em cada eixo. A atenção axial reduz a complexidade de O(n²) para O(n*d) onde d é o número de dimensões.

Glossário IA

Sparse Transformer

Compressive Transformer

Universal Transformer

Set Transformer

Synthesizer

Linear Transformer

Local Attention

Dilated Attention

Axial Attention

Nenhum resultado encontrado