Sparse Attention
Strided Attention
Variante d'attention sparse où les tokens consultent d'autres tokens à des intervalles réguliers (strides), permettant de capturer des dépendances à différentes échelles temporelles ou spatiales. Combine efficacement les informations locales et globales avec une complexité contrôlée.
← Terug