Эффективные Трансформеры

📖

термины

Sparse Transformer

Вариант, использующие предсказательные разреженные паттерны внимания для снижения вычислительных связей при сохранении зависимостей на больших расстояниях. Архитектура факторизует внимание на подмножества для оптимизации обработки.

📖

термины

Compressive Transformer

Расширение Transformer-XL, которое сжимает старые скрытые состояния в более плотные векторы для сохранения долгосрочной истории. Такое сжатие позволяет эффективно хранить обширный контекст.

📖

термины

Universal Transformer

Адаптивная архитектура, где глубина определяется динамически с помощью механизма адаптивной остановки, а не является фиксированной. Universal Transformer итеративно применяет преобразования с общими весами и адаптивным вниманием.

📖

термины

Set Transformer

Архитектура, инвариантная к перестановкам, основанная на внимании для обработки наборов данных без предопределённого порядка. Set Transformer использует блоки индуцированного внимания и механизмы пулинга для операций над множествами.

📖

термины

Synthesizer

Вариант, в котором веса внимания изучаются напрямую из позиционных эмбеддингов или генерируются небольшими сетями, не завися от содержимого токенов. Этот подход устраняет необходимость в вычислении сходства QK.

📖

термины

Linear Transformer

Архитектура, использующая ядерное разложение внимания для достижения линейной сложности по длине последовательности и памяти. Linear Transformer заменяет softmax на положительные ядерные функции, что позволяет использовать ассоциативное переупорядочивание.

📖

термины

Local Attention

Механизм внимания, ограниченный локальными окрестностями вокруг каждой позиции, что резко снижает количество рассматриваемых пар токенов. Этот подход особенно эффективен для данных с сильной локальной структурой.

📖

термины

Dilated Attention

Расширение скользящего окна внимания, использующее дилатированные паттерны для захвата зависимостей на большом расстоянии без увеличения сложности. Пропуски в паттерне позволяют экспоненциально расширять рецептивное поле.

📖

термины

Аксиальное внимание (Axial Attention)

Декомпозиция многомерного внимания на одномерные внимания, применяемые последовательно по каждой оси. Аксиальное внимание снижает сложность с O(n²) до O(n*d), где d — количество измерений.

Глоссарий ИИ

Sparse Transformer

Compressive Transformer

Universal Transformer

Set Transformer

Synthesizer

Linear Transformer

Local Attention

Dilated Attention

Аксиальное внимание (Axial Attention)

Результаты не найдены