视觉Transformer
Patch Size
Dimension spatiale des carrés dans lesquels l'image d'entrée est divisée, typiquement 16x16 ou 32x32 pixels pour les architectures ViT standard. La taille des patches influence directement le nombre de tokens générés et la granularité des informations spatiales préservées par le modèle.
← 返回