एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
टोकन फ्यूजन
विभिन्न मोडलिटीज़ से आने वाले टोकन्स को ट्रांसफॉर्मर लेयर्स द्वारा प्रोसेस करने से पहले उनके संयोजन या विलय की तकनीक। बेहतर संयुक्त प्रतिनिधित्व के लिए मल्टीमॉडल जानकारी के शीघ्र एकीकरण की अनुमति देता है।
एलाइन
एक अरब स्वचालित रूप से फ़िल्टर किए गए शोरयुक्त जोड़े पर प्रशिक्षित छवि-पाठ कंट्रास्टिव मॉडल। दर्शाता है कि बड़े पैमाने पर मल्टीमॉडल सीखने में डेटा की मात्रा शोर की भरपाई कर सकती है।
फ्लेमिंगो
विज़न-लैंग्वेज मॉडल जो मौजूदा प्री-ट्रेन्ड ट्रांसफॉर्मर्स को विज़ुअल-लिंग्विस्टिक अटेंशन मॉड्यूल्स के साथ अनुकूलित करता है। पूर्ण पुनः प्रशिक्षण के बिना जटिल मल्टीमॉडल समझ कार्यों पर फ्यू-शॉट लर्निंग की अनुमति देता है।
क्रॉस-मोडल प्रतिनिधित्व
साझा वेक्टर स्पेस जहाँ विभिन्न मोडलिटीज़ के एम्बेडिंग्स को अंतर-मोडल इंटरैक्शन की अनुमति देने के लिए शब्दार्थ रूप से संरेखित किया जाता है। पाठ, छवियों, ऑडियो और वीडियो के बीच ज्ञान हस्तांतरण और एकीकृत समझ को सुविधाजनक बनाता है।
एमवीआईटी (मल्टीस्केल विज़न ट्रांसफॉर्मर)
वीडियो ट्रांसफॉर्मर आर्किटेक्चर जो कई टेम्पोरल और स्पेशियल स्केल्स की विशेषताओं को जोड़ता है। वीडियो अनुक्रमों में लंबी दूरी के संबंधों को प्रभावी ढंग से पकड़ने के लिए पिरामिड अटेंशन का उपयोग करता है।
मल्टी-हेड क्रॉस अटेंशन
मल्टी-हेड मैकेनिज्म का विस्तार जहाँ प्रत्येक हेड मोडलिटीज़ के बीच विभिन्न क्रॉस-मोडल मैचिंग सीखता है। मल्टीमॉडल ट्रांसफॉर्मर आर्किटेक्चर में अंतर-मोडल संबंधों की समृद्ध और विविध कैप्चर की अनुमति देता है।