Визуальные трансформеры

📖

термины

MLP-голова

Финальный модуль классификации, обычно состоящий из полносвязного слоя с активацией, за которым следует выходной слой для предсказания классов. MLP-голова обрабатывает финальное представление токена класса (Class Token) для генерации оценок классификации для каждого возможного класса.

📖

термины

Размер патча

Пространственный размер квадратов, на которые делится входное изображение, обычно 16x16 или 32x32 пикселя для стандартных архитектур ViT. Размер патча напрямую влияет на количество генерируемых токенов и гранулярность пространственной информации, сохраняемой моделью.

📖

термины

Токенизация изображений

Процесс преобразования 2D-изображения в последовательность 1D-токенов, обрабатываемых трансформерами, включающий сегментацию на патчи и линейную проекцию. Эта токенизация является ключевым этапом, позволяющим адаптировать архитектуру трансформера, изначально разработанную для текста, к области компьютерного зрения.

📖

термины

Масштабно-инвариантные признаки

Признаки, извлекаемые Vision Transformers, которые остаются устойчивыми к изменению масштаба объектов на изображениях. Эти свойства естественным образом возникают из глобальной архитектуры трансформеров благодаря их способности моделировать дальнодействующие связи между патчами.

📖

термины

Token-to-Token ViT (T2T-ViT)

Вариант Vision Transformer, использующий итеративный процесс токенизации для постепенного преобразования патчей в более информативные токены. Этот подход обеспечивает лучшее моделирование локальной структуры и постепенное снижение пространственного разрешения, тем самым повышая вычислительную эффективность.

📖

термины

Pyramid Vision Transformer (PVT)

Иерархическая архитектура трансформера, которая генерирует карты признаков на разных масштабах, аналогично пирамидам признаков в CNN. PVT особенно подходит для задач плотного прогнозирования, таких как семантическая сегментация и обнаружение объектов, требующих многомасштабных представлений.

📖

термины

Swin Transformer

Иерархическая архитектура трансформера со сдвинутыми окнами внимания, которая позволяет эффективно моделировать локальные и глобальные связи с линейной сложностью. Swin Transformer вводит многомасштабные связи и продемонстрировал исключительную производительность в широком спектре задач компьютерного зрения.

📖

термины

DeiT (Data-efficient Image Transformers)

Вариант Vision Transformer, обучаемый с использованием стратегий дистилляции знаний для достижения конкурентоспособной производительности при меньшем объеме обучающих данных. DeiT вводит дополнительный токен дистилляции, который учится на основе предсказаний учителя CNN, тем самым сокращая разрыв в производительности с подходами, основанными на массивных данных.

📖

термины

Маскированные автоэнкодеры (MAE)

Подход самоконтролируемого предварительного обучения, в котором визуальные трансформеры обучаются путем восстановления замаскированных фрагментов изображений из оставшихся видимых фрагментов. Этот простой, но эффективный метод обеспечивает передовые показатели при предварительном обучении, будучи при этом очень экономным в плане вычислительных ресурсов.

Глоссарий ИИ

MLP-голова

Размер патча

Токенизация изображений

Масштабно-инвариантные признаки

Token-to-Token ViT (T2T-ViT)

Pyramid Vision Transformer (PVT)

Swin Transformer

DeiT (Data-efficient Image Transformers)

Маскированные автоэнкодеры (MAE)

Результаты не найдены