Vision Transformers (ViT)
Class Token
Token spécial ajouté à la séquence d'embeddings dont la représentation finale après passage dans le Transformer sert à la classification de l'image.
← Retour