Efficient Transformers
Linear Transformer
Architecture utilisant la décomposition kernelisée de l'attention pour atteindre une complexité linéaire en séquence et mémoire. Linear Transformer remplace softmax par des fonctions kernel positives pour permettre le réordonnancement associatif.
← Retour