Auto-Attention Multi-Tête
Auto-Attention Multi-Tête
Mécanisme où le modèle calcule plusieurs fois l'attention en parallèle avec différentes projections linéaires des requêtes, clés et valeurs, permettant de capturer des dépendances variées à différentes positions de la séquence.
← Geri