एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
टेक्स्ट-टू-इमेज सिंथेसिस
GANs या डिफ्यूजन मॉडल जैसे जेनरेटिव मॉडल का उपयोग करके टेक्स्ट विवरणों से फोटोरियलिस्टिक या स्टाइलाइज्ड छवियों का निर्माण। ये मॉडल सुसंगत और विस्तृत विज़ुअल बनाने के लिए टेक्स्ट की शब्दार्थ को समझते हैं।
इमेज-टू-टेक्स्ट ट्रांसलेशन
विज़न-लैंग्वेज मॉडल का उपयोग करके छवियों के विज़ुअल कंटेंट का स्वचालित रूप से वर्णनात्मक टेक्स्ट विवरणों में रूपांतरण। यह तकनीक ऑटोमैटिक कैप्शनिंग और विज़ुअल एक्सेसिबिलिटी जैसे एप्लिकेशन्स को आधार प्रदान करती है।
डिफ्यूजन मॉडल
जेनरेटिव मॉडल जो उच्च गुणवत्ता के सैंपल उत्पन्न करने के लिए डेटा को प्रगतिशील रूप से डिनॉइज़ करना सीखते हैं, विशेष रूप से टेक्स्ट से इमेज सिंथेसिस के लिए प्रभावी। ये मॉडल जनरेशन के लिए फॉरवर्ड और रिवर्स डिफ्यूजन प्रक्रियाओं का उपयोग करते हैं।
मल्टीमोडल ट्रांसफॉर्मर
क्रॉस-मोडल अटेंशन मैकेनिज्म के माध्यम से एक साथ कई डेटा मोडैलिटीज (टेक्स्ट, इमेज, ऑडियो) को प्रोसेस करने के लिए अनुकूलित ट्रांसफॉर्मर आर्किटेक्चर। ये मॉडल विषम डेटा के प्रतिनिधित्व और प्रसंस्करण को एकीकृत करते हैं।
विज़न-लैंग्वेज मॉडल
विज़ुअल और भाषाई जानकारी को संयोजित करने वाली सामग्री को समझने और उत्पन्न करने के लिए डिज़ाइन किए गए AI मॉडल, जैसे ViT, BLIP या ALIGN। वे विशाल इमेज-टेक्स्ट कॉर्पस पर प्री-ट्रेनिंग के माध्यम से संयुक्त प्रतिनिधित्व सीखते हैं।
मल्टीमोडल एम्बेडिंग
साझा स्पेस में वेक्टर प्रतिनिधित्व जहां विभिन्न मोडैलिटीज (टेक्स्ट, इमेज, ऑडियो) की गणितीय रूप से तुलना और हेरफेर किया जा सकता है। ये एम्बेडिंग सर्च और सिमिलैरिटी जैसी क्रॉस-मोडल सेमेंटिक ऑपरेशन्स को सक्षम करते हैं।
टेक्स्ट-टू-वीडियो जनरेशन
टेक्स्ट विवरणों से सुसंगत वीडियो अनुक्रमों का निर्माण, स्थानिक सामग्री और टेम्पोरल डायनामिक्स दोनों को मॉडल करना। ये मॉडल प्राकृतिक भाषा समझ और फ्रेम-बाय-फ्रेम वीडियो जनरेशन को संयोजित करते हैं।
इमेज कैप्शनिंग
छवियों की सामग्री का वर्णन करने वाले टेक्स्ट विवरणों का स्वचालित निर्माण, कंप्यूटर विज़न और प्राकृतिक भाषा प्रसंस्करण को संयोजित करना। आधुनिक मॉडल CNN या ViT एनकोडर और ट्रांसफॉर्मर डिकोडर का उपयोग करते हैं।
विज़ुअल क्वेश्चन आंसरिंग
छवियों की सामग्री पर पाठ्य प्रश्नों का उत्तर देने वाली प्रणाली, जिसमें दृष्टि और भाषा की संयुक्त समझ की आवश्यकता होती है। वीक्यूए वस्तु पहचान, स्थानिक तर्क और भाषाई समझ को जोड़ता है।
मल्टीमॉडल फ्यूज़न
एकीकृत और अधिक समृद्ध प्रतिनिधित्व बनाने के लिए विभिन्न मोडलिटीज़ से जानकारी का एकीकरण, जो प्रत्येक मोडलिटी से अलग-अलग अधिक समृद्ध होता है। रणनीतियों में अर्ली फ्यूज़न, लेट फ्यूज़न और अटेंशन-आधारित फ्यूज़न शामिल हैं।
न्यूरल स्टाइल ट्रांसफर
डीप लर्निंग तकनीक जो डिजिटल कलाकृतियाँ बनाने के लिए छवियों की सामग्री और शैली को अलग करती है और पुनः संयोजित करती है। यह शैलीगत और सामग्री विशेषताओं को पकड़ने के लिए कन्व्होल्यूशनल न्यूरल नेटवर्क का उपयोग करती है।
टेक्स्ट-टू-स्पीच सिंथेसिस
टैकोट्रॉन या वेवनेट जैसे गहरे तंत्रिका नेटवर्क का उपयोग करके लिखित पाठ को प्राकृतिक मानव वाणी में परिवर्तित करना। आधुनिक सिस्टम सीधे वेवफॉर्म उत्पन्न करते हैं या मध्यवर्ती स्पेक्ट्रोग्राम के माध्यम से करते हैं।
स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन
ट्रांसफॉर्मर या कन्फॉर्मर जैसे एंड-टू-एंड मॉडल का उपयोग करके स्वचालित रूप से वाणी को लिखित पाठ में परिवर्तित करना। ये सिस्टम ऑडियो सिग्नल को वर्णों या शब्दों के अनुक्रम में बदलते हैं।
ऑडियो-विज़ुअल लर्निंग
मल्टीमॉडल दृश्यों की समझ में सुधार के लिए एक साथ ऑडियो और वीडियो जानकारी को जोड़ने वाली मशीन लर्निंग। यह दृष्टिकोण ध्वनियों और दृश्य घटनाओं के बीच प्राकृतिक सहसंबंध का लाभ उठाता है।
मल्टीमॉडल अलाइनमेंट
एक सामान्य प्रतिनिधित्व स्थान में विभिन्न मोडलिटीज़ के बीच अर्थपूर्ण पत्राचार सीखने की प्रक्रिया। क्रॉस-मॉडल अनुवाद और रिट्रीवल कार्यों के लिए अलाइनमेंट महत्वपूर्ण है।