Глоссарий ИИ
Полный словарь искусственного интеллекта
Sparse Transformer
Вариант, использующие предсказательные разреженные паттерны внимания для снижения вычислительных связей при сохранении зависимостей на больших расстояниях. Архитектура факторизует внимание на подмножества для оптимизации обработки.
Compressive Transformer
Расширение Transformer-XL, которое сжимает старые скрытые состояния в более плотные векторы для сохранения долгосрочной истории. Такое сжатие позволяет эффективно хранить обширный контекст.
Universal Transformer
Адаптивная архитектура, где глубина определяется динамически с помощью механизма адаптивной остановки, а не является фиксированной. Universal Transformer итеративно применяет преобразования с общими весами и адаптивным вниманием.
Set Transformer
Архитектура, инвариантная к перестановкам, основанная на внимании для обработки наборов данных без предопределённого порядка. Set Transformer использует блоки индуцированного внимания и механизмы пулинга для операций над множествами.
Synthesizer
Вариант, в котором веса внимания изучаются напрямую из позиционных эмбеддингов или генерируются небольшими сетями, не завися от содержимого токенов. Этот подход устраняет необходимость в вычислении сходства QK.
Linear Transformer
Архитектура, использующая ядерное разложение внимания для достижения линейной сложности по длине последовательности и памяти. Linear Transformer заменяет softmax на положительные ядерные функции, что позволяет использовать ассоциативное переупорядочивание.
Local Attention
Механизм внимания, ограниченный локальными окрестностями вокруг каждой позиции, что резко снижает количество рассматриваемых пар токенов. Этот подход особенно эффективен для данных с сильной локальной структурой.
Dilated Attention
Расширение скользящего окна внимания, использующее дилатированные паттерны для захвата зависимостей на большом расстоянии без увеличения сложности. Пропуски в паттерне позволяют экспоненциально расширять рецептивное поле.
Аксиальное внимание (Axial Attention)
Декомпозиция многомерного внимания на одномерные внимания, применяемые последовательно по каждой оси. Аксиальное внимание снижает сложность с O(n²) до O(n*d), где d — количество измерений.