Transformadores de Visión
Parches de Imagen
División de una imagen en cuadrículas regulares de pequeñas secciones cuadradas (típicamente 16x16 píxeles) que son procesadas como tokens secuenciales por el ViT.
← Volver