एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
संवैधानिक एआई
एक संरेखण पद्धति जहां मॉडल पूर्वनिर्धारित सिद्धांतों या संविधान का पालन करते हैं, जो उन्हें इन नैतिक नियमों के अनुसार अपने उत्तरों का स्व-मूल्यांकन और सुधार करने में सक्षम बनाती है।
रेड टीमिंग
मॉडलों की कमजोरियों की पहचान और सुधार के लिए विशेषज्ञों द्वारा अवांछित या खतरनाक व्यवहार उत्पन्न करने का व्यवस्थित मूल्यांकन प्रक्रिया।
सुरक्षा संरेखण
तकनीकों का समूह जो यह सुनिश्चित करता है कि भाषा मॉडल हानिकारक, खतरनाक या अनुचित सामग्री उत्पन्न करने से बचते हैं, साथ ही अपने सामान्य प्रदर्शन को बनाए रखते हैं।
मूल्य संरेखण
एआई प्रणालियों के लक्ष्यों और व्यवहारों को मानवीय मूल्यों के साथ संरेखित करने की प्रक्रिया, जिसके लिए मानवीय प्राथमिकताओं और नैतिकता की सूक्ष्म समझ आवश्यक है।
मॉडल जेलब्रेकिंग
हमले की तकनीकें जो मॉडलों की सुरक्षा और संरेखण तंत्र को दरकिनार करने के लिए डिज़ाइन की गई हैं, उन्हें सामान्यतः प्रतिबंधित या वर्जित सामग्री उत्पन्न करने के लिए मजबूर करती हैं।
पुरस्कार मॉडलिंग
एक दृष्टिकोण जहां एक पुरस्कार मॉडल मानवीय प्राथमिकताओं की भविष्यवाणी करना सीखता है, जो मुख्य भाषा मॉडलों के सुदृढीकरण शिक्षण के लिए मार्गदर्शक के रूप में कार्य करता है।
संवैधानिक सिद्धांत
मौलिक नियमों और सिद्धांतों का समूह जो स्पष्ट रूप से परिभाषित होते हैं और एआई मॉडलों के व्यवहार का मार्गदर्शन करते हैं, वांछित मूल्यों के साथ स्थिरता और संरेखण सुनिश्चित करते हैं।
प्राथमिकता शिक्षण
मशीन लर्निंग का क्षेत्र जहां मॉडल विभिन्न विकल्पों के बीच तुलना से सीखते हैं ताकि मानवीय प्राथमिकताओं को पकड़ सकें और उनके साथ संरेखित हो सकें।
हानिरहितता प्रशिक्षण
उपयोगकर्ताओं के लिए संभावित रूप से हानिकारक, खतरनाक या प्रतिकूल सामग्री उत्पन्न करने से बचने के लिए मॉडलों को सिखाने के लिए विशिष्ट प्रशिक्षण प्रक्रिया।
सत्यनिष्ठा संरेखण
यह सुनिश्चित करने के लिए संरेखण का उद्देश्य कि मॉडल तथ्यात्मक रूप से सही जानकारी प्रदान करें और मतिभ्रम या अप्रमाणित दावों से बचें।
पूर्वाग्रह न्यूनीकरण
भाषा मॉडल में व्यवस्थित पूर्वाग्रहों की पहचान करने, मापने और कम करने के लिए तकनीकों का समूह, जो निष्पक्ष और गैर-भेदभावपूर्ण प्रतिनिधित्व सुनिश्चित करता है।
गार्डरेल
एआई सिस्टम में लगाए गए सुरक्षा तंत्र जो इनपुट/आउटपुट की निगरानी और फिल्टर करते हैं, वास्तविक समय में खतरनाक या अनुचित इंटरैक्शन को रोकते हैं।
संवैधानिक पर्यवेक्षण
पर्यवेक्षण की एक विधि जहां मॉडलों को एक स्पष्ट संविधान द्वारा निर्देशित किया जाता है, जो उन्हें स्व-आलोचना करने और इन मार्गदर्शक सिद्धांतों के अनुसार अपने उत्तरों में सुधार करने की अनुमति देता है।
मानव प्राथमिकता डेटा
मॉडल के विभिन्न प्रतिक्रियाओं के बीच तुलनात्मक मानव मूल्यांकन से एकत्र किया गया डेटासेट, जो संरेखण प्रशिक्षण और अनुकूलन के लिए आधार के रूप में कार्य करता है।
सुरक्षा फाइन-ट्यूनिंग
प्रारंभिक प्री-ट्रेनिंग के बाद विशिष्ट समायोजन चरण, जो सुरक्षा और नैतिकता बाधाओं का पालन करने के लिए मॉडल के व्यवहार को ठीक से समायोजित करने का लक्ष्य रखता है।
संरेखण वर्गीकरण
एआई में संरेखण के विभिन्न प्रकारों और आयामों का संरचित वर्गीकरण, जिसमें मूल्य संरेखण, सुरक्षा, मजबूती और मॉडल व्याख्यायोग्यता शामिल है।