Vision Transformers (ViT)
Token de Classification ([CLS])
Token spécial ajouté à la séquence de patches, dont la représentation finale est utilisée pour la tâche de classification globale de l'image, similaire au BERT en NLP.
← Wstecz