संरेखण और सुरक्षा - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

संवैधानिक एआई

एक संरेखण पद्धति जहां मॉडल पूर्वनिर्धारित सिद्धांतों या संविधान का पालन करते हैं, जो उन्हें इन नैतिक नियमों के अनुसार अपने उत्तरों का स्व-मूल्यांकन और सुधार करने में सक्षम बनाती है।

📖

शब्द

रेड टीमिंग

मॉडलों की कमजोरियों की पहचान और सुधार के लिए विशेषज्ञों द्वारा अवांछित या खतरनाक व्यवहार उत्पन्न करने का व्यवस्थित मूल्यांकन प्रक्रिया।

📖

शब्द

सुरक्षा संरेखण

तकनीकों का समूह जो यह सुनिश्चित करता है कि भाषा मॉडल हानिकारक, खतरनाक या अनुचित सामग्री उत्पन्न करने से बचते हैं, साथ ही अपने सामान्य प्रदर्शन को बनाए रखते हैं।

📖

शब्द

मूल्य संरेखण

एआई प्रणालियों के लक्ष्यों और व्यवहारों को मानवीय मूल्यों के साथ संरेखित करने की प्रक्रिया, जिसके लिए मानवीय प्राथमिकताओं और नैतिकता की सूक्ष्म समझ आवश्यक है।

📖

शब्द

मॉडल जेलब्रेकिंग

हमले की तकनीकें जो मॉडलों की सुरक्षा और संरेखण तंत्र को दरकिनार करने के लिए डिज़ाइन की गई हैं, उन्हें सामान्यतः प्रतिबंधित या वर्जित सामग्री उत्पन्न करने के लिए मजबूर करती हैं।

📖

शब्द

पुरस्कार मॉडलिंग

एक दृष्टिकोण जहां एक पुरस्कार मॉडल मानवीय प्राथमिकताओं की भविष्यवाणी करना सीखता है, जो मुख्य भाषा मॉडलों के सुदृढीकरण शिक्षण के लिए मार्गदर्शक के रूप में कार्य करता है।

📖

शब्द

संवैधानिक सिद्धांत

मौलिक नियमों और सिद्धांतों का समूह जो स्पष्ट रूप से परिभाषित होते हैं और एआई मॉडलों के व्यवहार का मार्गदर्शन करते हैं, वांछित मूल्यों के साथ स्थिरता और संरेखण सुनिश्चित करते हैं।

📖

शब्द

प्राथमिकता शिक्षण

मशीन लर्निंग का क्षेत्र जहां मॉडल विभिन्न विकल्पों के बीच तुलना से सीखते हैं ताकि मानवीय प्राथमिकताओं को पकड़ सकें और उनके साथ संरेखित हो सकें।

📖

शब्द

हानिरहितता प्रशिक्षण

उपयोगकर्ताओं के लिए संभावित रूप से हानिकारक, खतरनाक या प्रतिकूल सामग्री उत्पन्न करने से बचने के लिए मॉडलों को सिखाने के लिए विशिष्ट प्रशिक्षण प्रक्रिया।

📖

शब्द

सत्यनिष्ठा संरेखण

यह सुनिश्चित करने के लिए संरेखण का उद्देश्य कि मॉडल तथ्यात्मक रूप से सही जानकारी प्रदान करें और मतिभ्रम या अप्रमाणित दावों से बचें।

📖

शब्द

पूर्वाग्रह न्यूनीकरण

भाषा मॉडल में व्यवस्थित पूर्वाग्रहों की पहचान करने, मापने और कम करने के लिए तकनीकों का समूह, जो निष्पक्ष और गैर-भेदभावपूर्ण प्रतिनिधित्व सुनिश्चित करता है।

📖

शब्द

गार्डरेल

एआई सिस्टम में लगाए गए सुरक्षा तंत्र जो इनपुट/आउटपुट की निगरानी और फिल्टर करते हैं, वास्तविक समय में खतरनाक या अनुचित इंटरैक्शन को रोकते हैं।

📖

शब्द

संवैधानिक पर्यवेक्षण

पर्यवेक्षण की एक विधि जहां मॉडलों को एक स्पष्ट संविधान द्वारा निर्देशित किया जाता है, जो उन्हें स्व-आलोचना करने और इन मार्गदर्शक सिद्धांतों के अनुसार अपने उत्तरों में सुधार करने की अनुमति देता है।

📖

शब्द

मानव प्राथमिकता डेटा

मॉडल के विभिन्न प्रतिक्रियाओं के बीच तुलनात्मक मानव मूल्यांकन से एकत्र किया गया डेटासेट, जो संरेखण प्रशिक्षण और अनुकूलन के लिए आधार के रूप में कार्य करता है।

📖

शब्द

सुरक्षा फाइन-ट्यूनिंग

प्रारंभिक प्री-ट्रेनिंग के बाद विशिष्ट समायोजन चरण, जो सुरक्षा और नैतिकता बाधाओं का पालन करने के लिए मॉडल के व्यवहार को ठीक से समायोजित करने का लक्ष्य रखता है।

📖

शब्द

संरेखण वर्गीकरण

एआई में संरेखण के विभिन्न प्रकारों और आयामों का संरचित वर्गीकरण, जिसमें मूल्य संरेखण, सुरक्षा, मजबूती और मॉडल व्याख्यायोग्यता शामिल है।

एआई शब्दावली

संवैधानिक एआई

रेड टीमिंग

सुरक्षा संरेखण

मूल्य संरेखण

मॉडल जेलब्रेकिंग

पुरस्कार मॉडलिंग

संवैधानिक सिद्धांत

प्राथमिकता शिक्षण

हानिरहितता प्रशिक्षण

सत्यनिष्ठा संरेखण

पूर्वाग्रह न्यूनीकरण

गार्डरेल

संवैधानिक पर्यवेक्षण

मानव प्राथमिकता डेटा

सुरक्षा फाइन-ट्यूनिंग

संरेखण वर्गीकरण

कोई परिणाम नहीं मिला