Self-Attention
Softmax Normalization
Fonction d'activation transformant les scores d'attention en distribution de probabilités, garantissant que la somme des poids d'attention égale 1 pour chaque position.
← Retour