মাল্টিমোডাল অনুবাদ
ভিজ্যুয়াল প্রশ্ন উত্তর
ইমেজের বিষয়বস্তু সম্পর্কে টেক্সচুয়াল প্রশ্নের উত্তর দেয় এমন একটি সিস্টেম, যার জন্য ভিজ্যন এবং ভাষার যৌথ বোঝাপড়া প্রয়োজন। VQA অবজেক্ট ডিটেকশন, স্পেসিয়াল রিজনিং এবং ভাষাগত বোঝাপড়াকে একত্রিত করে।
← ফিরে যান