Глоссарий ИИ
Полный словарь искусственного интеллекта
MLP-голова
Финальный модуль классификации, обычно состоящий из полносвязного слоя с активацией, за которым следует выходной слой для предсказания классов. MLP-голова обрабатывает финальное представление токена класса (Class Token) для генерации оценок классификации для каждого возможного класса.
Размер патча
Пространственный размер квадратов, на которые делится входное изображение, обычно 16x16 или 32x32 пикселя для стандартных архитектур ViT. Размер патча напрямую влияет на количество генерируемых токенов и гранулярность пространственной информации, сохраняемой моделью.
Токенизация изображений
Процесс преобразования 2D-изображения в последовательность 1D-токенов, обрабатываемых трансформерами, включающий сегментацию на патчи и линейную проекцию. Эта токенизация является ключевым этапом, позволяющим адаптировать архитектуру трансформера, изначально разработанную для текста, к области компьютерного зрения.
Масштабно-инвариантные признаки
Признаки, извлекаемые Vision Transformers, которые остаются устойчивыми к изменению масштаба объектов на изображениях. Эти свойства естественным образом возникают из глобальной архитектуры трансформеров благодаря их способности моделировать дальнодействующие связи между патчами.
Token-to-Token ViT (T2T-ViT)
Вариант Vision Transformer, использующий итеративный процесс токенизации для постепенного преобразования патчей в более информативные токены. Этот подход обеспечивает лучшее моделирование локальной структуры и постепенное снижение пространственного разрешения, тем самым повышая вычислительную эффективность.
Pyramid Vision Transformer (PVT)
Иерархическая архитектура трансформера, которая генерирует карты признаков на разных масштабах, аналогично пирамидам признаков в CNN. PVT особенно подходит для задач плотного прогнозирования, таких как семантическая сегментация и обнаружение объектов, требующих многомасштабных представлений.
Swin Transformer
Иерархическая архитектура трансформера со сдвинутыми окнами внимания, которая позволяет эффективно моделировать локальные и глобальные связи с линейной сложностью. Swin Transformer вводит многомасштабные связи и продемонстрировал исключительную производительность в широком спектре задач компьютерного зрения.
DeiT (Data-efficient Image Transformers)
Вариант Vision Transformer, обучаемый с использованием стратегий дистилляции знаний для достижения конкурентоспособной производительности при меньшем объеме обучающих данных. DeiT вводит дополнительный токен дистилляции, который учится на основе предсказаний учителя CNN, тем самым сокращая разрыв в производительности с подходами, основанными на массивных данных.
Маскированные автоэнкодеры (MAE)
Подход самоконтролируемого предварительного обучения, в котором визуальные трансформеры обучаются путем восстановления замаскированных фрагментов изображений из оставшихся видимых фрагментов. Этот простой, но эффективный метод обеспечивает передовые показатели при предварительном обучении, будучи при этом очень экономным в плане вычислительных ресурсов.