Transformadores de Visão (ViT)
Codificação Posicional 2D
Informação sobre a posição espacial dos patches adicionada aos embeddings, permitindo ao modelo compreender a estrutura 2D da imagem apesar do processamento sequencial.
← Voltar