एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
मल्टीमॉडल ट्रांसफॉर्मर
एक ट्रांसफॉर्मर-प्रकार की न्यूरल नेटवर्क वास्तुकला जिसे कई तौर-तरीकों (जैसे टेक्स्ट, छवि, ऑडियो या वीडियो) से डेटा को एक साथ संसाधित और एकीकृत करने के लिए डिज़ाइन किया गया है, एक सामान्य प्रतिनिधित्व स्थान में।
एकीकृत प्रतिनिधित्व स्थान
एक अद्वितीय अव्यक्त वेक्टर स्थान जिसमें सभी तौर-तरीकों (टेक्स्ट, छवि, आदि) के एम्बेडिंग को प्रक्षेपित किया जाता है, जो प्रत्यक्ष अर्थ संबंधी तुलनाओं और मल्टीमॉडल तर्क संचालन की अनुमति देता है।
दृष्टि-भाषा मॉडल (VLM)
मल्टीमॉडल ट्रांसफॉर्मर का एक विशिष्ट वर्ग जो टेक्स्ट और छवियों की संयुक्त समझ में विशेषज्ञता रखता है, जिसका उपयोग छवि कैप्शनिंग, VQA या टेक्स्ट द्वारा छवि खोज जैसे कार्यों के लिए किया जाता है।
ALBEF (एलाइन बिफोर फ्यूज)
एक दृष्टि-भाषा मॉडल जो टेक्स्ट और छवि प्रतिनिधित्व को सह-ध्यान ट्रांसफॉर्मर परतों के माध्यम से संयोजित करने से पहले संरेखित करने के लिए कंट्रास्टिव प्री-ट्रेनिंग का उपयोग करता है, जिससे इंटरैक्शन की गुणवत्ता में सुधार होता है।
मोडैलिटी-अज्ञेय एम्बेडिंग
एक मल्टीमॉडल मॉडल द्वारा सीखा गया एक वेक्टर प्रतिनिधित्व जो मूल तौर-तरीके से स्वतंत्र अर्थों को कैप्चर करता है, उदाहरण के लिए, एक टेक्स्ट क्वेरी से एक छवि को पुनः प्राप्त करने की अनुमति देता है।
मल्टीमॉडल फाउंडेशन मॉडल
एक बड़ा मॉडल जिसे विशाल और विविध डेटा (टेक्स्ट, छवि, ऑडियो, आदि) पर प्री-ट्रेन किया गया है, जिसे न्यूनतम प्रयास के साथ डाउनस्ट्रीम कार्यों की एक बहुत विस्तृत श्रृंखला के लिए अनुकूलित (फाइन-ट्यून) करने के लिए डिज़ाइन किया गया है।
यूनिफाइड-आईओ
एक एकीकृत मॉडल जो एक ही ट्रांसफॉर्मर वास्तुकला और एक एकीकृत अनुक्रम प्रारूप का उपयोग करके इनपुट (टेक्स्ट, छवियां, ऑडियो, आदि) और आउटपुट (टेक्स्ट जनरेशन, ड्राइंग, आदि) दोनों में तौर-तरीकों की एक विस्तृत श्रृंखला को संसाधित करता है।
विजुअल पैच एम्बेडिंग
विज़न ट्रांसफॉर्मर (ViT) द्वारा लोकप्रिय एक तकनीक जहाँ एक छवि को गैर-अतिव्यापी पैच के ग्रिड में काटा जाता है, प्रत्येक को बाद में एक टोकन के रूप में संसाधित करने के लिए एक एम्बेडिंग वेक्टर में रेखीयकृत और प्रक्षेपित किया जाता है।
बहु-कार्य बहु-मोडल पूर्व-प्रशिक्षण
एक पूर्व-प्रशिक्षण रणनीति जहाँ मॉडल को मजबूत प्रतिनिधित्व सीखने के लिए विभिन्न मोडलताओं (उदाहरण: भाषा मास्किंग, छवि भविष्यवाणी, ऑडियो-टेक्स्ट संरेखण) से उत्पन्न कई उद्देश्यों पर एक साथ अनुकूलित किया जाता है।