Глоссарий ИИ
Полный словарь искусственного интеллекта
Multi-Head Self-Attention (MHSA)
Механизм, позволяющий модели сосредотачиваться на различных частях изображения одновременно, вычисляя несколько матриц внимания параллельно, тем самым улавливая различные типы пространственных отношений.
Layer Scale
Техника регуляризации, введенная в глубоких ViT, где обучаемые веса применяются к выходам остатков для стабилизации обучения начальных слоев.
Windowed Attention
Механизм внимания, ограниченный локальными непересекающимися окнами изображения, снижающий вычислительную сложность с O(n²) до O(n), где n - количество патчей.
Shifted Window Attention
Техника, при которой окна внимания сдвигаются между слоями для обеспечения связей между окнами, что улучшает способность модели моделировать долгосрочные отношения.
DeiT (Data-efficient Image Transformer)
Вариант ViT, который можно обучать с использованием скромного количества данных благодаря стратегии дистилляции знаний, где добавляется токен дистилляции для обучения от учителя CNN.
Distillation Token
Дополнительный токен в DeiT, который учится имитировать предсказания модели учителя (часто CNN), облегчая передачу знаний и улучшая производительность с меньшим количеством данных.
Masked Autoencoder (MAE)
Подход самообучения для ViT, где случайные участки изображения маскируются (до 75%) и модель учится их восстанавливать, выявляя удивительные возможности обучения.
Patch Merging
Операция в иерархических трансформерах, которая объединяет группы из 2x2 смежных патчей для создания токенов более низкого разрешения, увеличивая глубину и рецептивное поле.
Смещение относительной позиции
Смещение, добавляемое к оценкам внимания, которое зависит от относительного положения патчей, улучшая способность модели понимать пространственные отношения без кодирования абсолютной позиции.
Гибридная архитектура
Подход, сочетающий начальную сверточную сеть для извлечения признаков с трансформером для глобальной обработки, используемый в ранних реализациях ViT для снижения требований к данным.
Маркировка токенов
Стратегия обучения, при которой каждый патч получает метку вместо одной метки на всё изображение, заставляя модель изучать более богатые и локализованные представления.