মাল্টি-মোডাল ট্রান্সফরমার্স
CLIP
কনট্রাস্টিভ ল্যাঙ্গুয়েজ-ইমেজ প্রি-ট্রেনিং মডেল যা ৪০০ মিলিয়ন ইমেজ-টেক্সট জোড়ায় প্রশিক্ষিত, ভিশন এবং ল্যাঙ্গুয়েজের মধ্যে শেয়ার্ড রিপ্রেজেন্টেশন শেখার জন্য কনট্রাস্টিভ উদ্দেশ্য ব্যবহার করে।
← ফিরে যান