Efficient Transformers
Axial Attention
Décomposition de l'attention multidimensionnelle en attentions unidimensionnelles appliquées séquentiellement sur chaque axe. Axial attention réduit la complexité de O(n²) à O(n*d) où d est le nombre de dimensions.
← Retour