Vision Transformers
প্যাচ সাইজ
ইনপুট ইমেজ যে বর্গাকার অংশে বিভক্ত হয় তার স্থানিক মাত্রা, সাধারণত স্ট্যান্ডার্ড ViT আর্কিটেকচারের জন্য 16x16 বা 32x32 পিক্সেল। প্যাচের আকার সরাসরি উৎপন্ন টোকেনের সংখ্যা এবং মডেল দ্বারা সংরক্ষিত স্থানিক তথ্যের সূক্ষ্মতাকে প্রভাবিত করে।
← ফিরে যান