Attention Sparse
Global Attention Pattern
Mécanisme où certains tokens prédéfinis ou appris peuvent attirer l'attention de tous les autres tokens de la séquence, préservant les dépendances longues.
← Quay lại