Эффективные Трансформеры
Dilated Attention
Расширение скользящего окна внимания, использующее дилатированные паттерны для захвата зависимостей на большом расстоянии без увеличения сложности. Пропуски в паттерне позволяют экспоненциально расширять рецептивное поле.
← Назад