মাল্টিমোডাল ট্রান্সফরমার
FLAVA (Foundational Language and Vision Alignment)
একটি সাধারণ ট্রান্সফরমার আর্কিটেকচার সহ ইউনিফাইড ফাউন্ডেশনাল মাল্টিমোডাল মডেল, যা একই সাথে শুধুমাত্র টেক্সট, শুধুমাত্র ইমেজ এবং মাল্টিমোডাল ডেটাতে প্রি-ট্রেইন করা হয়।
← ফিরে যান