एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
पैरामीटर-कुशल फाइन-ट्यूनिंग (PEFT)
फाइन-ट्यूनिंग की वे विधियाँ जो मॉडल के केवल एक छोटे उपसमुच्चय पैरामीटर को संशोधित करती हैं जबकि अधिकांश वज़नों को स्थिर रखती हैं, जिससे कम्प्यूटेशनल और भंडारण लागत कम होती है।
QLoRA (क्वांटाइज्ड LoRA)
LoRA का एक प्रकार जो 4-बिट क्वांटिज़ेशन और लो-रैंक एडाप्टेशन को जोड़ता है, जिससे सीमित हार्डवेयर संसाधनों पर बहुत बड़े मॉडल का फाइन-ट्यूनिंग संभव होता है।
प्रीफिक्स ट्यूनिंग
एक विधि जो केवल इनपुट अनुक्रमों में जोड़े गए निरंतर प्रीफिक्स को अनुकूलित करती है, मॉडल के वज़नों को बदले बिना, विशिष्ट कार्यों के लिए इसके व्यवहार को अनुकूलित करने के लिए।
प्रॉम्प्ट ट्यूनिंग
प्रॉम्प्ट एम्बेडिंग का अनुकूलन जो विशेष रूप से एक प्री-ट्रेन्ड मॉडल के व्यवहार को निर्देशित करने के लिए सीखा जाता है, बिना इसके आंतरिक पैरामीटर बदले।
इंस्ट्रक्शन फाइन-ट्यूनिंग
इंस्ट्रक्शन-उत्तर जोड़े पर अतिरिक्त प्रशिक्षण की प्रक्रिया जो मॉडल को निर्देशों का सटीक पालन करना और उचित उत्तर उत्पन्न करना सिखाती है।
DPO (डायरेक्ट प्रेफरेंस ऑप्टिमाइज़ेशन)
RLHF का एक विकल्प जो सीधे मानव प्राथमिकता डेटा से मॉडल को अनुकूलित करता है, बिना किसी मध्यवर्ती रिवार्ड मॉडल की आवश्यकता के, एलाइनमेंट प्रक्रिया को सरल बनाता है।