Transformers Eficientes
Linear Transformer
Arquitetura que usa a decomposição kernelizada da atenção para atingir complexidade linear em sequência e memória. Linear Transformer substitui softmax por funções kernel positivas para permitir o reordenamento associativo.
← Voltar