Mécanisme d'Attention
Attention Layer Normalization
Normalisation appliquée avant ou après le mécanisme d'attention pour stabiliser l'entraînement, généralement implémentée comme pre-norm dans les architectures modernes.
← Retour