Transformadores de Visão (ViT)
Pré-treinamento em Conjuntos de Dados em Grande Escala
Fase de treinamento inicial de um ViT em corpus massivos como ImageNet-21k ou JFT-300M, essencial para superar o seu baixo viés indutivo e alcançar bom desempenho.
← Voltar