মাল্টি-মোডাল ট্রান্সফরমার্স
GIT
জেনারেটিভ ইমেজ-টু-টেক্সট ট্রান্সফরমার মডেল যা ছবিকে একটি বিদেশী ভাষা হিসেবে বিবেচনা করে এবং ছবির বর্ণনা এবং ভিজ্যুয়াল প্রশ্নোত্তরের জন্য একটি সাধারণ এনকোডার-ডিকোডার আর্কিটেকচার ব্যবহার করে স্টেট-অফ-দ্য-আর্ট পারফরম্যান্স প্রদান করে।
← ফিরে যান