Эффективные Трансформеры
Linear Transformer
Архитектура, использующая ядерное разложение внимания для достижения линейной сложности по длине последовательности и памяти. Linear Transformer заменяет softmax на положительные ядерные функции, что позволяет использовать ассоциативное переупорядочивание.
← Назад