ভিশন ট্রান্সফরমারস ফর ডিটেকশন
টোকেন-টু-টোকেন ViT
একটি ভেরিয়েন্ট যা টোকেনগুলোর মধ্যে ধাপে ধাপে ট্রানজিশন প্রবর্তন করে, রিসাইজিং ও রিকম্বিনেশনের মাধ্যমে লোকাল স্ট্রাকচারাল ইনফরমেশন সংরক্ষণ করে।
← ফিরে যান