Vision Transformers (ViT)
Pre-training on Large Datasets
Phase d'entraînement initial sur des millions d'images comme ImageNet-21k pour apprendre des représentations visuelles générales avant fine-tuning.
← Назад