Sparse Attention
Low-rank Approximation
Technique approximant la matrice d'attention par une décomposition en rang réduit, réduisant significativement les besoins en mémoire et en calcul.
← Retour