Vision Transformers
MAE (Masked Autoencoder)
Approche de pré-entraînement self-supervised où des patches aléatoires de l'image sont masqués et le modèle doit les reconstruire. Permet d'apprendre des représentations riches sans nécessiter de labels supervisés.
← Geri