Attention par Produits Scalaires
Multi-Tête Attention
Extension du mécanisme d'attention utilisant plusieurs ensembles de matrices requête-clé-valeur pour capturer différents types de relations.
← 返回