Vision Transformers
Patches de Imagem
Divisão de uma imagem em grades regulares de pequenas seções quadradas (tipicamente 16x16 pixels) que são tratadas como tokens sequenciais pelo ViT.
← Voltar