Глоссарий ИИ
Полный словарь искусственного интеллекта
Патчи изображений
Разделение изображения на регулярную сетку из маленьких квадратных секций (обычно 16x16 пикселей), которые обрабатываются как последовательные токены в ViT.
Визуальная токенизация
Процесс сегментации изображения в последовательность дискретных токенов, являющийся основополагающим для адаптации архитектуры трансформера, изначально разработанной для текста, к визуальным данным.
DeiT (Data-efficient Image Transformer)
Вариант Vision Transformer, обученный с использованием стратегий дистилляции для достижения конкурентоспособных результатов при меньшем объеме обучающих данных.
Иерархические визуальные трансформеры
Архитектуры трансформеров, которые поддерживают многоуровневые представления изображения, объединяя преимущества традиционных CNN с гибкостью трансформеров.
Масштабирование слоев
Техника нормализации, применяемая к остаткам в слоях трансформера для стабилизации обучения и улучшения сходимости глубоких моделей.
Визуальный трансформер с перекрестным вниманием
Архитектура, использующая механизмы перекрестного внимания между различными модальностями или представлениями, позволяющая осуществлять более богатые взаимодействия между признаками.
Самовнимание на основе окон
Вариант самовнимания, ограниченный локальными окнами, а не всем изображением, что снижает вычислительную сложность, сохраняя при этом важные локальные связи.