Attention Linéaire et Efficace
FlashAttention
Algorithme d'attention exacte, mais plus rapide en mémoire et en temps, qui utilise des tuiles (tiling) et des recomputations pour éviter la création de la grande matrice d'attention intermédiaire en mémoire GPU.
← Geri