Vision Transformers (ViT)
Токен классификации ([CLS])
Специальный токен, добавляемый к последовательности патчей, чье финальное представление используется для общей задачи классификации изображения, аналогично BERT в NLP.
← Назад