Vision Transformers (ViT)
Image Patch Tokenization
Processus de découpage d'une image en patches non chevauchants de taille fixe typiquement 16x16 pixels convertis ensuite en tokens séquentiels.
← पीछे