Разреженное внимание
Kernel-based Attention
Подход, использующий ядра для аппроксимации softmax-внимания, позволяющий выполнять вычисления с линейной сложностью с помощью таких техник, как FAVOR+ (Fast Attention Via Positive Orthogonal Random Features).
← Назад