মাল্টিমোডাল ট্রান্সফরমার
MDETR (Modulated Detection for End-to-End Multi-Modal Understanding)
প্রাকৃতিক ভাষা দ্বারা মডুলেটেড এন্ড-টু-এন্ড অবজেক্ট ডিটেকশন আর্কিটেকচার, যা ইমেজে অবজেক্ট সনাক্তকরণ এবং লোকালাইজেশনের জন্য জটিল টেক্সচুয়াল কোয়েরি অনুমোদন করে।
← ফিরে যান