DeiT (Data-efficient Image Transformers)

Variante de Vision Transformer entrenada con estrategias de destilación de conocimientos para alcanzar un rendimiento competitivo con menos datos de entrenamiento. DeiT introduce un token de destilación adicional que aprende de las predicciones de un profesor CNN, reduciendo así la brecha de rendimiento con los enfoques basados en datos masivos.

← Volver