🏠 Главная
Бенчмарки
📊 Все бенчмарки 🦖 Динозавр v1 🦖 Динозавр v2 ✅ Приложения To-Do List 🎨 Творческие свободные страницы 🎯 FSACB - Ультимативный показ 🌍 Бенчмарк перевода
Модели
🏆 Топ-10 моделей 🆓 Бесплатные модели 📋 Все модели ⚙️ Режимы Kilo Code
Ресурсы
💬 Библиотека промптов 📖 Глоссарий ИИ 🔗 Полезные ссылки

Глоссарий ИИ

Полный словарь искусственного интеллекта

235
категории
2 988
подкатегории
33 628
термины
📖
термины

Sparse Transformer

Вариант, использующие предсказательные разреженные паттерны внимания для снижения вычислительных связей при сохранении зависимостей на больших расстояниях. Архитектура факторизует внимание на подмножества для оптимизации обработки.

📖
термины

Compressive Transformer

Расширение Transformer-XL, которое сжимает старые скрытые состояния в более плотные векторы для сохранения долгосрочной истории. Такое сжатие позволяет эффективно хранить обширный контекст.

📖
термины

Universal Transformer

Адаптивная архитектура, где глубина определяется динамически с помощью механизма адаптивной остановки, а не является фиксированной. Universal Transformer итеративно применяет преобразования с общими весами и адаптивным вниманием.

📖
термины

Set Transformer

Архитектура, инвариантная к перестановкам, основанная на внимании для обработки наборов данных без предопределённого порядка. Set Transformer использует блоки индуцированного внимания и механизмы пулинга для операций над множествами.

📖
термины

Synthesizer

Вариант, в котором веса внимания изучаются напрямую из позиционных эмбеддингов или генерируются небольшими сетями, не завися от содержимого токенов. Этот подход устраняет необходимость в вычислении сходства QK.

📖
термины

Linear Transformer

Архитектура, использующая ядерное разложение внимания для достижения линейной сложности по длине последовательности и памяти. Linear Transformer заменяет softmax на положительные ядерные функции, что позволяет использовать ассоциативное переупорядочивание.

📖
термины

Local Attention

Механизм внимания, ограниченный локальными окрестностями вокруг каждой позиции, что резко снижает количество рассматриваемых пар токенов. Этот подход особенно эффективен для данных с сильной локальной структурой.

📖
термины

Dilated Attention

Расширение скользящего окна внимания, использующее дилатированные паттерны для захвата зависимостей на большом расстоянии без увеличения сложности. Пропуски в паттерне позволяют экспоненциально расширять рецептивное поле.

📖
термины

Аксиальное внимание (Axial Attention)

Декомпозиция многомерного внимания на одномерные внимания, применяемые последовательно по каждой оси. Аксиальное внимание снижает сложность с O(n²) до O(n*d), где d — количество измерений.

🔍

Результаты не найдены