Трансформеры для обработки изображений (ViT)

📖

термины

Multi-Head Self-Attention (MHSA)

Механизм, позволяющий модели сосредотачиваться на различных частях изображения одновременно, вычисляя несколько матриц внимания параллельно, тем самым улавливая различные типы пространственных отношений.

📖

термины

Layer Scale

Техника регуляризации, введенная в глубоких ViT, где обучаемые веса применяются к выходам остатков для стабилизации обучения начальных слоев.

📖

термины

Windowed Attention

Механизм внимания, ограниченный локальными непересекающимися окнами изображения, снижающий вычислительную сложность с O(n²) до O(n), где n - количество патчей.

📖

термины

Shifted Window Attention

Техника, при которой окна внимания сдвигаются между слоями для обеспечения связей между окнами, что улучшает способность модели моделировать долгосрочные отношения.

📖

термины

DeiT (Data-efficient Image Transformer)

Вариант ViT, который можно обучать с использованием скромного количества данных благодаря стратегии дистилляции знаний, где добавляется токен дистилляции для обучения от учителя CNN.

📖

термины

Distillation Token

Дополнительный токен в DeiT, который учится имитировать предсказания модели учителя (часто CNN), облегчая передачу знаний и улучшая производительность с меньшим количеством данных.

📖

термины

Masked Autoencoder (MAE)

Подход самообучения для ViT, где случайные участки изображения маскируются (до 75%) и модель учится их восстанавливать, выявляя удивительные возможности обучения.

📖

термины

Patch Merging

Операция в иерархических трансформерах, которая объединяет группы из 2x2 смежных патчей для создания токенов более низкого разрешения, увеличивая глубину и рецептивное поле.

📖

термины

Смещение относительной позиции

Смещение, добавляемое к оценкам внимания, которое зависит от относительного положения патчей, улучшая способность модели понимать пространственные отношения без кодирования абсолютной позиции.

📖

термины

Гибридная архитектура

Подход, сочетающий начальную сверточную сеть для извлечения признаков с трансформером для глобальной обработки, используемый в ранних реализациях ViT для снижения требований к данным.

📖

термины

Маркировка токенов

Стратегия обучения, при которой каждый патч получает метку вместо одной метки на всё изображение, заставляя модель изучать более богатые и локализованные представления.

Глоссарий ИИ

Multi-Head Self-Attention (MHSA)

Layer Scale

Windowed Attention

Shifted Window Attention

DeiT (Data-efficient Image Transformer)

Distillation Token

Masked Autoencoder (MAE)

Patch Merging

Смещение относительной позиции

Гибридная архитектура

Маркировка токенов

Результаты не найдены