প্যাচ সাইজ

ইনপুট ইমেজ যে বর্গাকার অংশে বিভক্ত হয় তার স্থানিক মাত্রা, সাধারণত স্ট্যান্ডার্ড ViT আর্কিটেকচারের জন্য 16x16 বা 32x32 পিক্সেল। প্যাচের আকার সরাসরি উৎপন্ন টোকেনের সংখ্যা এবং মডেল দ্বারা সংরক্ষিত স্থানিক তথ্যের সূক্ষ্মতাকে প্রভাবিত করে।

← ফিরে যান