Transformadores de Visão
Patch Size
Dimensão espacial dos quadrados nos quais a imagem de entrada é dividida, tipicamente 16x16 ou 32x32 pixels para as arquiteturas ViT padrão. O tamanho dos patches influencia diretamente o número de tokens gerados e a granularidade das informações espaciais preservadas pelo modelo.
← Voltar