Redes Feed-Forward
Inner Layer Normalization
Aplicación de la normalización de capa antes o después del FFN en la arquitectura Transformer, con variantes pre-norm y post-norm afectando la estabilidad del entrenamiento.
← Volver