Transformadores de Visión (ViT)
Image Patch Tokenization
Proceso de división de una imagen en parches no superpuestos de tamaño fijo, típicamente de 16x16 píxeles, convertidos posteriormente en tokens secuenciales.
← Volver