बहु-मोडल ट्रांसफॉर्मर्स
मोडैलिटी एम्बेडिंग
टोकन एम्बेडिंग्स में जोड़े गए विशिष्ट एन्कोडिंग वेक्टर जो मूल मोडैलिटी (टेक्स्ट, इमेज, ऑडियो) को इंगित करते हैं, जिससे ट्रांसफॉर्मर को प्रत्येक प्रकार के डेटा को अलग से पहचानने और प्रोसेस करने की अनुमति मिलती है।
← पीछे