محولات الرؤية (ViT)
Positional Encoding 2D
Information sur la position spatiale des patches ajoutée aux embeddings, permettant au modèle de comprendre la structure 2D de l'image malgré le traitement séquentiel.
← رجوع