Vision Transformers (ViT)
Token Labeling
Stratégie d'entraînement où chaque patch reçoit une étiquette supervisée au lieu d'une seule étiquette par image, forçant le modèle à apprendre des représentations plus riches et localisées.
← Retour