Vision Transformers (ViT)
DeiT (Transformador de Imagen Eficiente en Datos)
Variante del ViT entrenable con cantidades de datos más modestas gracias a una estrategia de destilación de conocimiento donde se añade un token de destilación para aprender de un profesor CNN.
← Volver