Transformadores de Visión (ViT)
Codificación Posicional 2D
Información sobre la posición espacial de los parches añadida a los embeddings, permitiendo al modelo comprender la estructura 2D de la imagen a pesar del procesamiento secuencial.
← Volver