Механизм внимания
Нормализация слоя внимания
Нормализация, применяемая до или после механизма внимания для стабилизации обучения, обычно реализуемая как pre-norm в современных архитектурах.
← Назад