মাল্টিমোডাল ট্রান্সফরমার
ভিজুয়াল প্যাচ এমবেডিং
ভিশন ট্রান্সফরমার (ViT) দ্বারা জনপ্রিয়কৃত টেকনিক যেখানে একটি ইমেজকে ওভারল্যাপিং ছাড়া প্যাচের গ্রিডে কাটা হয়, প্রতিটি প্যাচ লিনিয়ারাইজড এবং একটি টোকেন হিসেবে প্রক্রিয়া করার জন্য এমবেডিং ভেক্টরে প্রজেক্ট করা হয়।
← ফিরে যান