মাল্টিমোডাল মডেল
ভিজুয়াল টোকেনাইজেশন
একটি টেকনিক যা একটি ইমেজকে প্যাচ বা বিচ্ছিন্ন টোকেনের সিকোয়েন্সে বিভক্ত করে, প্রায়শই ভিশন ট্রান্সফরমার (ভিআইটি) এর মতো নিউরাল নেটওয়ার্কের মাধ্যমে, যাতে এটি টেক্সচুয়াল ট্রান্সফরমার আর্কিটেকচারের সাথে সামঞ্জস্যপূর্ণ হয়।
← ফিরে যান