Архитектура кодер-декодер
Размер скрытого слоя
Размерность векторов внутреннего представления трансформера, критический параметр, влияющий на способность модели улавливать сложные характеристики и обычно кратный количеству голов внимания.
← Назад