Self-Attention Multi-Têtes
Multi-Head Attention Output Projection
Couche linéaire finale qui combine les sorties de toutes les têtes d'attention en une matrice unifiée. Transforme la concaténation des têtes d'attention en dimensions compatibles avec les couches suivantes.
← Zurück