Transformadores de Visión (ViT)
Pre-training on Large Datasets
Fase de entrenamiento inicial en millones de imágenes como ImageNet-21k para aprender representaciones visuales generales antes del fine-tuning.
← Volver