Attention par Produits Scalaires
Facteur d'Échelle
Terme de normalisation (√dk) appliqué aux scores d'attention pour prévenir la saturation de softmax et améliorer la convergence.
← 返回Terme de normalisation (√dk) appliqué aux scores d'attention pour prévenir la saturation de softmax et améliorer la convergence.
← 返回