Transformadores Multimodales
Patch Embedding Visual
Técnica popularizada por Vision Transformer (ViT) donde una imagen se divide en una cuadrícula de parches no superpuestos, cada uno de los cuales se linealiza y proyecta en un vector de embedding para ser tratado como un token.
← Volver