Normalización de Capa
Normalización Pre-Capa
Variante de la normalización de capa aplicada antes de las subcapas de atención y feed-forward, mejorando la estabilidad de entrenamiento en Transformers profundos.
← Volver