Multi-Head Attention
Attention Projection Matrices
Matrices de poids apprenables Wq, Wk, Wv et Wo transformant les embeddings en queries, keys, values et fusionnant les sorties multi-head. Ces projections linéaires sont les paramètres principaux du mécanisme d'attention.
← Indietro