ट्रांसफार्मर अनुकूलन - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (PEFT)

तकनीकों का एक समूह जो पूर्व-प्रशिक्षित मॉडल को केवल कुछ पैरामीटर्स को संशोधित करके अनुकूलित करने की अनुमति देता है, जिससे कम्प्यूटेशनल लागत कम हो जाती है।

📖

शब्द

लोरा (लो-रैंक एडाप्टेशन)

PEFT विधि जो ट्रांसफॉर्मर लेयर्स में कम रैंक वाले मैट्रिक्स इंजेक्ट करती है, केवल 0.1% मूल पैरामीटर्स के साथ प्रभावी फाइन-ट्यूनिंग संभव बनाती है।

📖

शब्द

एडाप्टर्स

हल्के न्यूरल मॉड्यूल जो ट्रांसफॉर्मर लेयर्स के बीच डाले जाते हैं, मूल वजनों को संशोधित किए बिना मॉडल को नए कार्यों के लिए अनुकूलित करने के लिए स्वतंत्र रूप से प्रशिक्षित होते हैं।

📖

शब्द

फ्लैश अटेंशन

आधुनिक GPU के लिए अनुकूलित अटेंशन का एल्गोरिदमिक सटीक कार्यान्वयन, प्रशिक्षण को तेज करने के लिए अनावश्यक मेमोरी रीड/राइट को समाप्त करता है।

📖

शब्द

डायनामिक टोकन प्रूनिंग

अटेंशन की कम्प्यूटेशनल जटिलता को कम करने के लिए फॉरवर्ड पास के दौरान कम प्रासंगिक टोकन्स को चयनात्मक रूप से हटाने की अनुकूली तकनीक।

📖

शब्द

जीरो रिडंडेंसी ऑप्टिमाइज़र (ZeRO)

ऑप्टिमाइज़र स्टेट्स, ग्रेडिएंट्स और पैरामीटर्स को कई GPU पर वितरित करने वाला ऑप्टिमाइजेशन फ्रेमवर्क, प्रशिक्षण के दौरान मेमोरी रिडंडेंसी को समाप्त करता है।

📖

शब्द

मॉडल पैरेललिज़्म

वितरण रणनीति जहां मॉडल के विभिन्न घटक विभिन्न कम्प्यूटेशनल उपकरणों पर रखे जाते हैं, एक GPU की मेमोरी से बड़े मॉडल को संभालने के लिए।

📖

शब्द

पाइपलाइन पैरेललिज़्म

मॉडल पैरेललिज़्म का एक रूप जहां लेयर्स विभिन्न GPU पर वितरित की जाती हैं और संसाधनों के उपयोग को बेहतर बनाने के लिए पाइपलाइन में संसाधित की जाती हैं।

📖

शब्द

टेंसर समानांतरता

वह समानांतरता तकनीक जो व्यक्तिगत भार टेंसरों को कई जीपीयू में विभाजित करती है ताकि एक डिवाइस की मेमोरी से बड़े परतों को प्रशिक्षित किया जा सके।

📖

शब्द

ग्रेडिएंट संचयन

वह विधि जो मॉडल के भारों को अपडेट करने से पहले कई फॉरवर्ड पास पर ग्रेडिएंट्स को संचित करके एक बड़े बैच आकार का अनुकरण करती है।

📖

शब्द

परत-वार सीखने की दर क्षय

वह अनुकूलन रणनीति जो परतों की गहराई के अनुसार भिन्न सीखने की दरें लागू करती है, आमतौर पर ऊपरी परतों के लिए अधिक।

📖

शब्द

पाठ्यक्रम सीखना

वह प्रशिक्षण दृष्टिकोण जो उदाहरणों को बढ़ती कठिनाई के क्रम में प्रस्तुत करता है, अभिसरण को तेज करता है और अंतिम प्रदर्शन में सुधार करता है।

📖

शब्द

विशेषज्ञों का मिश्रण (MoE)

वह आर्किटेक्चर जहां प्रत्येक टोकन को एक विशेषज्ञ उप-समूह द्वारा संसाधित किया जाता है, जिससे मॉडल की क्षमता को रैखिक लागत वृद्धि के बिना बढ़ाया जा सकता है।

📖

शब्द

प्रतिवर्ती परतें

वे ट्रांसफॉर्मर परतें जो आउटपुट से एक्टिवेशन के पुनर्निर्माण की अनुमति देने के लिए डिज़ाइन की गई हैं, जिससे मध्यवर्ती एक्टिवेशन को संग्रहीत करने की आवश्यकता समाप्त हो जाती है।

📖

शब्द

ग्रेडिएंट शोर इंजेक्शन

वह नियमितीकरण तकनीक जो प्रशिक्षण के दौरान ग्रेडिएंट्स में गॉसियन शोर जोड़ती है ताकि सामान्यीकरण में सुधार हो और अपटाइमल स्थानीय मिनिमा से बचा जा सके।

📖

शब्द

ऑप्टिमाइज़र स्थिति शार्डिंग

वह मेमोरी वितरण विधि जो ऑप्टिमाइज़र स्थितियों को कई जीपीयू पर विभाजित करती है ताकि प्रशिक्षण के दौरान मेमोरी फुटप्रिंट को काफी कम किया जा सके।

एआई शब्दावली

पैरामीटर एफिशिएंट फाइन-ट्यूनिंग (PEFT)

लोरा (लो-रैंक एडाप्टेशन)

एडाप्टर्स

फ्लैश अटेंशन

डायनामिक टोकन प्रूनिंग

जीरो रिडंडेंसी ऑप्टिमाइज़र (ZeRO)

मॉडल पैरेललिज़्म

पाइपलाइन पैरेललिज़्म

टेंसर समानांतरता

ग्रेडिएंट संचयन

परत-वार सीखने की दर क्षय

पाठ्यक्रम सीखना

विशेषज्ञों का मिश्रण (MoE)

प्रतिवर्ती परतें

ग्रेडिएंट शोर इंजेक्शन

ऑप्टिमाइज़र स्थिति शार्डिंग

कोई परिणाम नहीं मिला