Масштабирование внимания
Attention Score Normalization
Normalisation des scores de similarité avant l'application de Softmax pour contrôler la distribution de probabilité et prévenir les concentrations extrêmes d'attention.
← Назад