Architecture Transformer
Projection Matrices
Matrices de poids apprenables Wq, Wk, Wv transformant les embeddings d'entrée en espaces Query, Key, Value, et Wo combinant les sorties de différentes têtes d'attention.
← Kembali