Layer Normalization
Pre-Layer Normalization
Variante de la normalisation de couche appliquée avant les sous-couches d'attention et feed-forward, améliorant la stabilité d'entraînement dans les Transformers profonds.
← Retour