Autoatención multi-cabeza
Softmax sur les Clés
Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.
← Volver