बहु-मोडल ट्रांसफॉर्मर्स
BEiT-3
बाइडायरेक्शनल एनकोडर रिप्रेजेंटेशन फ्रॉम इमेज ट्रांसफॉर्मर v3 मॉडल जो मोडैलिटी-स्पेसिफिक एम्बेडिंग्स के साथ एक मल्टीवे ट्रांसफॉर्मर का उपयोग करके छवि, पाठ और छवि-पाठ को एकीकृत तरीके से संसाधित करता है।
← पीछे