Layer Normalization
Post-LN Transformer
Architecture originale de transformeur où la layer normalization est appliquée après les couches d'attention et feed-forward, nécessitant un réglage plus précis du taux d'apprentissage.
← पीछे