Vision Transformers (ViT)
Pre-training on Large Datasets
Fase de treinamento inicial em milhões de imagens como ImageNet-21k para aprender representações visuais gerais antes do fine-tuning.
← Voltar