Многоголовое самовнимание
Проекция выхода многоголового внимания
Финальный линейный слой, который объединяет выходы всех голов внимания в единую матрицу. Преобразует конкатенацию голов внимания в размеры, совместимые со следующими слоями.
← Назад