Sparse Attention
Blockwise Attention
Approche qui divise la séquence en blocs et calcule l'attention intra-blocs et inter-blocs de manière séquentielle ou hiérarchique. Permet de traiter de très longues séquences en échangeant des informations entre blocs plutôt qu'entre tokens individuels.
← Terug