Sparse Attention
Dilated Sliding Window
Variante de l'attention par fenêtre glissante utilisant des sauts (dilatation) pour augmenter le champ récepteur sans augmenter la complexité computationnelle.
← Retour