Vision Transformers (ViT)
Autoencoder Enmascarado (MAE)
Enfoque de auto-supervisión para ViT donde parches aleatorios de la imagen se enmascaran (hasta 75%) y el modelo aprende a reconstruirlos, revelando capacidades de aprendizaje sorprendentes.
← Volver