Self-Attention
Capa de Adición y Normalización
Capa de normalización residual aplicada después del mecanismo de atención, combinando la salida de la atención con la entrada original (conexión residual) antes de normalizar la suma.
← Volver