Efficient Attention
Memory Compressed Attention
Méthode compressant les clés et valeurs via une opération de pooling avant le calcul d'attention, réduisant la taille de la matrice d'attention et donc la complexité computationnelle.
← Terug