Глоссарий ИИ
Полный словарь искусственного интеллекта
Токен классификации ([CLS])
Специальный токен, добавляемый к последовательности патчей, чье финальное представление используется для общей задачи классификации изображения, аналогично BERT в NLP.
2D позиционное кодирование
Информация о пространственном положении патчей, добавляемая к эмбеддингам, позволяющая модели понимать 2D структуру изображения несмотря на последовательную обработку.
Индуктивное смещение
Предположения, встроенные в модель; ViT имеют более слабое индуктивное смещение по сравнению с CNN, поскольку они не включают априорные знания о локализации и трансляции пикселей.
Оконное самовнимание
Механизм внимания, где вычисления ограничены локальными окнами патчей, уменьшая квадратичную сложность стандартного MHSA для изображений высокого разрешения.
Предварительное обучение на крупномасштабных наборах данных
Начальная фаза обучения ViT на массивных корпусах данных, таких как ImageNet-21k или JFT-300M, необходимая для преодоления слабого индуктивного смещения и достижения хорошей производительности.