Vision Transformers (ViT)
Image Patch Tokenization
Processo de divisão de uma imagem em patches não sobrepostos de tamanho fixo, tipicamente 16x16 pixels, convertidos posteriormente em tokens sequenciais.
← Voltar