🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (PEFT)

तकनीकों का एक समूह जो पूर्व-प्रशिक्षित मॉडल को केवल कुछ पैरामीटर्स को संशोधित करके अनुकूलित करने की अनुमति देता है, जिससे कम्प्यूटेशनल लागत कम हो जाती है।

📖
शब्द

लोरा (लो-रैंक एडाप्टेशन)

PEFT विधि जो ट्रांसफॉर्मर लेयर्स में कम रैंक वाले मैट्रिक्स इंजेक्ट करती है, केवल 0.1% मूल पैरामीटर्स के साथ प्रभावी फाइन-ट्यूनिंग संभव बनाती है।

📖
शब्द

एडाप्टर्स

हल्के न्यूरल मॉड्यूल जो ट्रांसफॉर्मर लेयर्स के बीच डाले जाते हैं, मूल वजनों को संशोधित किए बिना मॉडल को नए कार्यों के लिए अनुकूलित करने के लिए स्वतंत्र रूप से प्रशिक्षित होते हैं।

📖
शब्द

फ्लैश अटेंशन

आधुनिक GPU के लिए अनुकूलित अटेंशन का एल्गोरिदमिक सटीक कार्यान्वयन, प्रशिक्षण को तेज करने के लिए अनावश्यक मेमोरी रीड/राइट को समाप्त करता है।

📖
शब्द

डायनामिक टोकन प्रूनिंग

अटेंशन की कम्प्यूटेशनल जटिलता को कम करने के लिए फॉरवर्ड पास के दौरान कम प्रासंगिक टोकन्स को चयनात्मक रूप से हटाने की अनुकूली तकनीक।

📖
शब्द

जीरो रिडंडेंसी ऑप्टिमाइज़र (ZeRO)

ऑप्टिमाइज़र स्टेट्स, ग्रेडिएंट्स और पैरामीटर्स को कई GPU पर वितरित करने वाला ऑप्टिमाइजेशन फ्रेमवर्क, प्रशिक्षण के दौरान मेमोरी रिडंडेंसी को समाप्त करता है।

📖
शब्द

मॉडल पैरेललिज़्म

वितरण रणनीति जहां मॉडल के विभिन्न घटक विभिन्न कम्प्यूटेशनल उपकरणों पर रखे जाते हैं, एक GPU की मेमोरी से बड़े मॉडल को संभालने के लिए।

📖
शब्द

पाइपलाइन पैरेललिज़्म

मॉडल पैरेललिज़्म का एक रूप जहां लेयर्स विभिन्न GPU पर वितरित की जाती हैं और संसाधनों के उपयोग को बेहतर बनाने के लिए पाइपलाइन में संसाधित की जाती हैं।

📖
शब्द

टेंसर समानांतरता

वह समानांतरता तकनीक जो व्यक्तिगत भार टेंसरों को कई जीपीयू में विभाजित करती है ताकि एक डिवाइस की मेमोरी से बड़े परतों को प्रशिक्षित किया जा सके।

📖
शब्द

ग्रेडिएंट संचयन

वह विधि जो मॉडल के भारों को अपडेट करने से पहले कई फॉरवर्ड पास पर ग्रेडिएंट्स को संचित करके एक बड़े बैच आकार का अनुकरण करती है।

📖
शब्द

परत-वार सीखने की दर क्षय

वह अनुकूलन रणनीति जो परतों की गहराई के अनुसार भिन्न सीखने की दरें लागू करती है, आमतौर पर ऊपरी परतों के लिए अधिक।

📖
शब्द

पाठ्यक्रम सीखना

वह प्रशिक्षण दृष्टिकोण जो उदाहरणों को बढ़ती कठिनाई के क्रम में प्रस्तुत करता है, अभिसरण को तेज करता है और अंतिम प्रदर्शन में सुधार करता है।

📖
शब्द

विशेषज्ञों का मिश्रण (MoE)

वह आर्किटेक्चर जहां प्रत्येक टोकन को एक विशेषज्ञ उप-समूह द्वारा संसाधित किया जाता है, जिससे मॉडल की क्षमता को रैखिक लागत वृद्धि के बिना बढ़ाया जा सकता है।

📖
शब्द

प्रतिवर्ती परतें

वे ट्रांसफॉर्मर परतें जो आउटपुट से एक्टिवेशन के पुनर्निर्माण की अनुमति देने के लिए डिज़ाइन की गई हैं, जिससे मध्यवर्ती एक्टिवेशन को संग्रहीत करने की आवश्यकता समाप्त हो जाती है।

📖
शब्द

ग्रेडिएंट शोर इंजेक्शन

वह नियमितीकरण तकनीक जो प्रशिक्षण के दौरान ग्रेडिएंट्स में गॉसियन शोर जोड़ती है ताकि सामान्यीकरण में सुधार हो और अपटाइमल स्थानीय मिनिमा से बचा जा सके।

📖
शब्द

ऑप्टिमाइज़र स्थिति शार्डिंग

वह मेमोरी वितरण विधि जो ऑप्टिमाइज़र स्थितियों को कई जीपीयू पर विभाजित करती है ताकि प्रशिक्षण के दौरान मेमोरी फुटप्रिंट को काफी कम किया जा सके।

🔍

कोई परिणाम नहीं मिला