Разреженное внимание
Random Attention
Подход, где каждый токен случайно привлекает внимание к подмножеству удаленных токенов, сохраняя длинные соединения с низкими вычислительными издержками.
← Назад