बहु-मोडल ट्रांसफॉर्मर्स
BLIP
बूटस्ट्रैपिंग लैंग्वेज-इमेज प्री-ट्रेनिंग फ्रेमवर्क जो शोर को फ़िल्टर करने और डेटा गुणवत्ता में सुधार के लिए छद्म-कैप्शन उत्पन्न करता है, जो एक मल्टीमोडल एनकोडर और इमेज-टेक्स्ट डिकोडर का उपयोग करता है।
← पीछे