Эффективные Трансформеры
Sparse Transformer
Вариант, использующие предсказательные разреженные паттерны внимания для снижения вычислительных связей при сохранении зависимостей на больших расстояниях. Архитектура факторизует внимание на подмножества для оптимизации обработки.
← Назад