Auto-Attention Multi-Tête
Softmax sur les Clés
Application de la fonction softmax aux scores d'attention (produits scalaires requête-clé) pour obtenir une distribution de probabilité normalisée servant de poids d'attention.
← Wstecz