🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

टेक्स्ट-टू-इमेज सिंथेसिस

GANs या डिफ्यूजन मॉडल जैसे जेनरेटिव मॉडल का उपयोग करके टेक्स्ट विवरणों से फोटोरियलिस्टिक या स्टाइलाइज्ड छवियों का निर्माण। ये मॉडल सुसंगत और विस्तृत विज़ुअल बनाने के लिए टेक्स्ट की शब्दार्थ को समझते हैं।

📖
शब्द

इमेज-टू-टेक्स्ट ट्रांसलेशन

विज़न-लैंग्वेज मॉडल का उपयोग करके छवियों के विज़ुअल कंटेंट का स्वचालित रूप से वर्णनात्मक टेक्स्ट विवरणों में रूपांतरण। यह तकनीक ऑटोमैटिक कैप्शनिंग और विज़ुअल एक्सेसिबिलिटी जैसे एप्लिकेशन्स को आधार प्रदान करती है।

📖
शब्द

डिफ्यूजन मॉडल

जेनरेटिव मॉडल जो उच्च गुणवत्ता के सैंपल उत्पन्न करने के लिए डेटा को प्रगतिशील रूप से डिनॉइज़ करना सीखते हैं, विशेष रूप से टेक्स्ट से इमेज सिंथेसिस के लिए प्रभावी। ये मॉडल जनरेशन के लिए फॉरवर्ड और रिवर्स डिफ्यूजन प्रक्रियाओं का उपयोग करते हैं।

📖
शब्द

मल्टीमोडल ट्रांसफॉर्मर

क्रॉस-मोडल अटेंशन मैकेनिज्म के माध्यम से एक साथ कई डेटा मोडैलिटीज (टेक्स्ट, इमेज, ऑडियो) को प्रोसेस करने के लिए अनुकूलित ट्रांसफॉर्मर आर्किटेक्चर। ये मॉडल विषम डेटा के प्रतिनिधित्व और प्रसंस्करण को एकीकृत करते हैं।

📖
शब्द

विज़न-लैंग्वेज मॉडल

विज़ुअल और भाषाई जानकारी को संयोजित करने वाली सामग्री को समझने और उत्पन्न करने के लिए डिज़ाइन किए गए AI मॉडल, जैसे ViT, BLIP या ALIGN। वे विशाल इमेज-टेक्स्ट कॉर्पस पर प्री-ट्रेनिंग के माध्यम से संयुक्त प्रतिनिधित्व सीखते हैं।

📖
शब्द

मल्टीमोडल एम्बेडिंग

साझा स्पेस में वेक्टर प्रतिनिधित्व जहां विभिन्न मोडैलिटीज (टेक्स्ट, इमेज, ऑडियो) की गणितीय रूप से तुलना और हेरफेर किया जा सकता है। ये एम्बेडिंग सर्च और सिमिलैरिटी जैसी क्रॉस-मोडल सेमेंटिक ऑपरेशन्स को सक्षम करते हैं।

📖
शब्द

टेक्स्ट-टू-वीडियो जनरेशन

टेक्स्ट विवरणों से सुसंगत वीडियो अनुक्रमों का निर्माण, स्थानिक सामग्री और टेम्पोरल डायनामिक्स दोनों को मॉडल करना। ये मॉडल प्राकृतिक भाषा समझ और फ्रेम-बाय-फ्रेम वीडियो जनरेशन को संयोजित करते हैं।

📖
शब्द

इमेज कैप्शनिंग

छवियों की सामग्री का वर्णन करने वाले टेक्स्ट विवरणों का स्वचालित निर्माण, कंप्यूटर विज़न और प्राकृतिक भाषा प्रसंस्करण को संयोजित करना। आधुनिक मॉडल CNN या ViT एनकोडर और ट्रांसफॉर्मर डिकोडर का उपयोग करते हैं।

📖
शब्द

विज़ुअल क्वेश्चन आंसरिंग

छवियों की सामग्री पर पाठ्य प्रश्नों का उत्तर देने वाली प्रणाली, जिसमें दृष्टि और भाषा की संयुक्त समझ की आवश्यकता होती है। वीक्यूए वस्तु पहचान, स्थानिक तर्क और भाषाई समझ को जोड़ता है।

📖
शब्द

मल्टीमॉडल फ्यूज़न

एकीकृत और अधिक समृद्ध प्रतिनिधित्व बनाने के लिए विभिन्न मोडलिटीज़ से जानकारी का एकीकरण, जो प्रत्येक मोडलिटी से अलग-अलग अधिक समृद्ध होता है। रणनीतियों में अर्ली फ्यूज़न, लेट फ्यूज़न और अटेंशन-आधारित फ्यूज़न शामिल हैं।

📖
शब्द

न्यूरल स्टाइल ट्रांसफर

डीप लर्निंग तकनीक जो डिजिटल कलाकृतियाँ बनाने के लिए छवियों की सामग्री और शैली को अलग करती है और पुनः संयोजित करती है। यह शैलीगत और सामग्री विशेषताओं को पकड़ने के लिए कन्व्होल्यूशनल न्यूरल नेटवर्क का उपयोग करती है।

📖
शब्द

टेक्स्ट-टू-स्पीच सिंथेसिस

टैकोट्रॉन या वेवनेट जैसे गहरे तंत्रिका नेटवर्क का उपयोग करके लिखित पाठ को प्राकृतिक मानव वाणी में परिवर्तित करना। आधुनिक सिस्टम सीधे वेवफॉर्म उत्पन्न करते हैं या मध्यवर्ती स्पेक्ट्रोग्राम के माध्यम से करते हैं।

📖
शब्द

स्पीच-टू-टेक्स्ट ट्रांसक्रिप्शन

ट्रांसफॉर्मर या कन्फॉर्मर जैसे एंड-टू-एंड मॉडल का उपयोग करके स्वचालित रूप से वाणी को लिखित पाठ में परिवर्तित करना। ये सिस्टम ऑडियो सिग्नल को वर्णों या शब्दों के अनुक्रम में बदलते हैं।

📖
शब्द

ऑडियो-विज़ुअल लर्निंग

मल्टीमॉडल दृश्यों की समझ में सुधार के लिए एक साथ ऑडियो और वीडियो जानकारी को जोड़ने वाली मशीन लर्निंग। यह दृष्टिकोण ध्वनियों और दृश्य घटनाओं के बीच प्राकृतिक सहसंबंध का लाभ उठाता है।

📖
शब्द

मल्टीमॉडल अलाइनमेंट

एक सामान्य प्रतिनिधित्व स्थान में विभिन्न मोडलिटीज़ के बीच अर्थपूर्ण पत्राचार सीखने की प्रक्रिया। क्रॉस-मॉडल अनुवाद और रिट्रीवल कार्यों के लिए अलाइनमेंट महत्वपूर्ण है।

🔍

कोई परिणाम नहीं मिला