Vision Transformers
Image Tokenization
Processus de conversion d'une image 2D en une séquence de tokens 1D traitables par les Transformers, impliquant la segmentation en patches et la projection linéaire. Cette tokenisation est l'étape cruciale qui permet d'adapter l'architecture Transformer, initialement conçue pour le texte, au domaine de la vision.
← पीछे