Transformadores de visión
Tamaño de parche
Dimensión espacial de los cuadrados en los que se divide la imagen de entrada, típicamente 16x16 o 32x32 píxeles para las arquitecturas ViT estándar. El tamaño de los parches influye directamente en el número de tokens generados y en la granularidad de la información espacial preservada por el modelo.
← Volver