Sparse Attention
Performers
Modèles utilisant l'attention FAVOR+ (FAst Attention Via Positive Orthogonal Random Features) pour approximer l'attention softmax avec complexité linéaire en préservant les propriétés mathématiques.
← 뒤로