Многоголовая Само-Внимание
Размерность Модели (d_model)
Размер пространства эмбеддингов, используемого для представлений запросов, ключей и значений после конкатенации голов, ключевой параметр архитектуры Transformer.
← Назад