ভিশন ট্রান্সফরমার (ViT)
উইন্ডোড সেলফ-অ্যাটেনশন
অ্যাটেনশন মেকানিজম যেখানে গণনা প্যাচের স্থানীয় উইন্ডোতে সীমাবদ্ধ থাকে, উচ্চ রেজোলিউশন ইমেজের জন্য স্ট্যান্ডার্ড MHSA-এর চতুর্ঘাতিক জটিলতা হ্রাস করে।
← ফিরে যান