Efficient Transformers
Sparse Transformer
Variante utilisant des motifs d'attention éparses prédictifs pour réduire les connexions computationnelles tout en capturant les dépendances à longue distance. L'architecture factorise l'attention en sous-ensembles pour optimiser le traitement.
← 返回