Vision Transformers (ViT)
Masked Autoencoder (MAE)
Approche d'auto-supervision pour ViT où des patches aléatoires de l'image sont masqués (jusqu'à 75%) et le modèle apprend à les reconstruire, révélant des capacités d'apprentissage surprenantes.
← Retour