محولات الرؤية
حجم الرقعة
البعد المكاني للمربعات التي يتم تقسيم صورة الإدخال إليها، عادةً 16×16 أو 32×32 بكسل لهياكل ViT القياسية. يؤثر حجم الرقع بشكل مباشر على عدد الرموز (tokens) المُنشأة ودقة المعلومات المكانية التي يحتفظ بها النموذج.
← رجوع