Многоголовое внимание
Размерность головы (d_k)
Размерность векторов ключа и значения в каждой голове внимания, вычисляемая путем деления размерности модели на количество голов, влияющая на представительные возможности каждой головы.
← Назад