Эффективное внимание
Memory Compressed Attention
Метод, сжимающий ключи и значения с помощью операции пулинга перед вычислением внимания, уменьшающий размер матрицы внимания и, следовательно, вычислительную сложность.
← Назад