Vision Transformers para Detección
ViT de Token a Token
Variante que introduce una transición progresiva entre tokens con redimensionamiento y recombinación para preservar la información estructural local.
← Volver