बहु-मोडल ट्रांसफॉर्मर्स - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

मल्टी-मोडल ट्रांसफॉर्मर

आर्किटेक्चर ट्रांसफॉर्मर विस्तारित जो क्रॉस-अटेंशन तंत्रों का उपयोग करके इंटर-मोडल सूचना को एकीकृत करते हुए एक साथ कई डेटा मोडैलिटीज (टेक्स्ट, इमेज, ऑडियो) को प्रोसेस करने में सक्षम है।

📖

शब्द

विजन-लैंग्वेज ट्रांसफॉर्मर

विज़ुअल और टेक्स्चुअल सामग्री को संयुक्त रूप से समझने और उत्पन्न करने के लिए विशेष रूप से डिज़ाइन की गई ट्रांसफॉर्मर आर्किटेक्चर, जो प्रत्येक मोडैलिटी के लिए साझा या अलग-अलग एनकोडर का उपयोग करती है।

📖

शब्द

नेटवर्क के एक या अधिक स्तरों पर विभिन्न मोडैलिटीज के प्रतिनिधित्व को प्रभावी ढंग से जोड़ने की अनुमति देने वाली एल्गोरिथ्मिक रणनीति, जिसमें प्रारंभिक फ्यूजन, देर से फ्यूजन या पदानुक्रमित फ्यूजन शामिल है।

📖

शब्द

मोडैलिटी एम्बेडिंग

टोकन एम्बेडिंग्स में जोड़े गए विशिष्ट एन्कोडिंग वेक्टर जो मूल मोडैलिटी (टेक्स्ट, इमेज, ऑडियो) को इंगित करते हैं, जिससे ट्रांसफॉर्मर को प्रत्येक प्रकार के डेटा को अलग से पहचानने और प्रोसेस करने की अनुमति मिलती है।

📖

शब्द

CLIP

400 मिलियन इमेज-टेक्स्ट जोड़े पर प्रशिक्षित कंट्रास्टिव लैंग्वेज-इमेज प्री-ट्रेनिंग मॉडल जो विजन और लैंग्वेज के बीच साझा प्रतिनिधित्व सीखने के लिए कंट्रास्टिव उद्देश्य का उपयोग करता है।

📖

शब्द

VLP

विजन-लैंग्वेज प्री-ट्रेनिंग मॉडल का परिवार जो दोनों मोडैलिटीज के लिए एक साझा ट्रांसफॉर्मर एनकोडर का उपयोग करता है, जिसमें मास्क्ड मॉडलिंग और इमेज-टेक्स्ट प्रेडिक्शन जैसे प्री-ट्रेनिंग टास्क हैं।

📖

शब्द

यूनिफाइड एनकोडर-डिकोडर

ट्रांसफॉर्मर आर्किटेक्चर जहां एक ही एनकोडर सभी इनपुट मोडैलिटीज को प्रोसेस करता है, और एक डिकोडर आउटपुट उत्पन्न करता है, जिससे VQA, कैप्शनिंग और रिट्रीवल जैसे टास्क एक ही मॉडल के साथ संभव होते हैं।

📖

शब्द

मोडैलिटी गैप

विभिन्न मोडैलिटीज के प्रतिनिधित्व स्थानों के बीच अंतर्निहित संरचनात्मक और शब्दार्थ अंतर, जिसे मल्टी-मोडल मॉडल में विशिष्ट एलाइनमेंट तंत्रों की आवश्यकता होती है।

📖

शब्द

मल्टी-मोडल फ्यूज़न

विभिन्न मोडैलिटीज़ से विशेषताओं को एकीकृत करने की प्रक्रिया जो अंतर-मोडल पूरकताओं का लाभ उठाकर जटिल कार्यों पर प्रदर्शन में सुधार करती है।

📖

शब्द

क्रॉस-मोडल एलाइनमेंट

विभिन्न मोडैलिटीज़ के प्रतिनिधित्व को एक साझा स्थान में अर्थगत रूप से संरेखित करने का प्रशिक्षण उद्देश्य, जो दृश्य और भाषायिक अवधारणाओं के बीच संगतता की अनुमति देता है।

📖

शब्द

पर्सीवर IO

इनपुट डेटा और सीखे गए लेटेंट्स के सेट के बीच क्रॉस-अटेंशन नेटवर्क का उपयोग करके किसी भी मोडैलिटी के संयोजन को प्रोसेस करने में सक्षम सामान्य ट्रांसफॉर्मर आर्किटेक्चर।

📖

शब्द

फ्लेमिंगो मॉडल

80 बिलियन पैरामीटर वाला विजन-लैंग्वेज मॉडल जो पूर्व-प्रशिक्षित एडाप्टर्स और अटेंशनल गेटिंग का उपयोग करके विजन ट्रांसफॉर्मर्स और भाषा मॉडल्स को पूर्ण पुनः प्रशिक्षण के बिना प्रभावी ढंग से जोड़ता है।

📖

शब्द

BLIP

बूटस्ट्रैपिंग लैंग्वेज-इमेज प्री-ट्रेनिंग फ्रेमवर्क जो शोर को फ़िल्टर करने और डेटा गुणवत्ता में सुधार के लिए छद्म-कैप्शन उत्पन्न करता है, जो एक मल्टीमोडल एनकोडर और इमेज-टेक्स्ट डिकोडर का उपयोग करता है।

📖

शब्द

CoCa

कंट्रास्टिव कैप्शनर्स मॉडल जो प्रतिनिधित्व सीखने के लिए एक विपरीत उद्देश्य और कैप्शनिंग के लिए एक जनरेटिव उद्देश्य को एक एकीकृत ट्रांसफॉर्मर आर्किटेक्चर में जोड़ता है।

📖

शब्द

BEiT-3

बाइडायरेक्शनल एनकोडर रिप्रेजेंटेशन फ्रॉम इमेज ट्रांसफॉर्मर v3 मॉडल जो मोडैलिटी-स्पेसिफिक एम्बेडिंग्स के साथ एक मल्टीवे ट्रांसफॉर्मर का उपयोग करके छवि, पाठ और छवि-पाठ को एकीकृत तरीके से संसाधित करता है।

📖

शब्द

LayoutLM

दस्तावेज़ों पर पूर्व-प्रशिक्षित मॉडल्स का परिवार जो 2डी स्थानिक लेआउट, पाठ और दृश्य जानकारी को फॉर्म और बिल जैसे संरचित दस्तावेज़ों की समझ के लिए जोड़ता है।

📖

शब्द

UniPerceiver

एक सार्वभौम धारणा फ्रेमवर्क जो विविध मल्टी-मोडल टास्क को एक एकीकृत टोकन जेनरेशन समस्या के रूप में निपटाता है, वर्गीकरण, डिटेक्शन और जेनरेशन के लिए एक ही ट्रांसफॉर्मर मॉडल का उपयोग करता है।

📖

शब्द

GIT

जेनरेटिव इमेज-टू-टेक्स्ट ट्रांसफॉर्मर मॉडल जो इमेज को एक विदेशी भाषा के रूप में मानता है और इमेज कैप्शनिंग और VQA के लिए एक सरल एनकोडर-डिकोडर आर्किटेक्चर का उपयोग करता है, स्टेट-ऑफ-द-आर्ट प्रदर्शन के साथ।

एआई शब्दावली

मल्टी-मोडल ट्रांसफॉर्मर

विजन-लैंग्वेज ट्रांसफॉर्मर

फ्यूजन मैकेनिज्म

मोडैलिटी एम्बेडिंग

CLIP

VLP

यूनिफाइड एनकोडर-डिकोडर

मोडैलिटी गैप

मल्टी-मोडल फ्यूज़न

क्रॉस-मोडल एलाइनमेंट

पर्सीवर IO

फ्लेमिंगो मॉडल

BLIP

CoCa

BEiT-3

LayoutLM

UniPerceiver

GIT

कोई परिणाम नहीं मिला