एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
विरोधात्मक मशीन लर्निंग
मशीन लर्निंग मॉडल की कमजोरियों का अध्ययन करने वाला क्षेत्र जो दुर्भावनापूर्ण हमलों के खिलाफ संवेदनशील होता है, जिनका उद्देश्य मॉडल को धोखा देना या उसके प्रदर्शन को बिगाड़ना होता है। यह विषय साथ ही हमले की तकनीकों और रक्षा की रणनीतियों को विकसित करता है ताकि आईए सिस्टम की सुरक्षा को मजबूत किया जा सके।
बचने के हमले
हमले की तकनीक जहां पहले से प्रशिक्षित मॉडल को गलत निर्देशित करने के लिए इनपुट डेटा में अधिसूचनीय विक्षोभ लागू किए जाते हैं। ये हमले इसके आंतरिक पैरामीटर को बदले बिना मॉडल के निर्णयों को दरकिनार करने का लक्ष्य रखते हैं।
डेटा विषाक्तता
हमले की विधि जिसमें अंतिम मॉडल के प्रदर्शन को नुकसान पहुँचाने के लिए प्रशिक्षण डेटासेट में दुर्भावनापूर्ण डेटा को इंजेक्ट किया जाता है। इसका उद्देश्य बैकडोर बनाना या विशिष्ट लक्ष्यों पर भविष्यवाणियों को सिस्टमैटिक रूप से खराब करना है।
विरोधात्मक प्रशिक्षण
मॉडल की मजबूती को बढ़ाने के लिए अधिगम प्रक्रिया में सक्रिय रूप से विरोधात्मक उदाहरणों को शामिल करने वाली प्रशिक्षण विधि। यह दृष्टिकोण मॉडल को उन प्रकार के हमलों के लिए तैयार करता है जिनका वह उत्पादन में सामना कर सकता है।
यादृच्छिक सुगमता
प्रमाणित रक्षा तकनीक जो इनपुट में गॉसियन शोर जोड़ती है और कई शोर युक्त नमूनों पर बहुमत मत द्वारा वर्गीकरण करती है। यह विधि मॉडल की सीमित विक्षोभ के खिलाफ मजबूती के लिए गणितीय गारंटी प्रदान करती है।
निष्कर्षण हमले
एक मालिकाना मॉडल को पुनरुत्पादित या चुराने के लिए एपीआई को क्वेरी करके और उसकी प्रतिक्रियाओं का विश्लेषण करके हमले की रणनीति। ये हमले मॉडल या इसके प्रशिक्षण डेटा को पुनर्निर्माण करने के लिए भविष्यवाणियों के माध्यम से सूचना लीक का शोषण करते हैं।
मजबूती प्रमाणन
गणितीय प्रक्रिया जो औपचारिक रूप से गारंटी देती है कि एक मॉडल एक निर्धारित त्रिज्या के भीतर सभी विक्षोभ के लिए अपनी सही भविष्यवाणियां बनाए रखता है। यह प्रमाणन हमलों के प्रति मॉडल की कमजोरियों पर ऊपरी सीमाएं प्रदान करता है।
ढाल मुखौटा
रक्षा तकनीक जो मॉडल के ग्रेडिएंट को संशोधित या छिपाती है ताकि हमलावर प्रभावी विरोधात्मक विक्षोभ की गणना न कर सकें। हालांकि यह प्रभावी लग सकता है, यह दृष्टिकोण अक्सर अधिक परिष्कृत हमलों द्वारा दरकिनार किया जा सकता है।
विश्वव्यापी प्रतिकूल हमले
हमले का वह प्रकार जहां एक ही व्यवधान विभिन्न इनपुट्स की एक विस्तृत श्रृंखला पर एक मॉडल को प्रभावी ढंग से धोखा दे सकता है। ये हमले विशेष रूप से खतरनाक होते हैं क्योंकि उन्हें प्रत्येक नमूने के लिए एक विशिष्ट व्यवधान की गणना करने की आवश्यकता नहीं होती है।
मजबूत कंट्रास्टिव लर्निंग
वह लर्निंग दृष्टिकोण जो एक नमूने के प्रतिनिधित्व और इसके प्रतिकूल रूप से वृद्धि किए गए संस्करणों के बीच समानता को अधिकतम करता है। यह विधि मॉडल को दुर्भावनापूर्ण व्यवधानों के प्रति अपरिवर्तनीय विशेषताएं विकसित करने के लिए प्रोत्साहित करती है।
प्रतिकूल उदाहरणों का पता लगाना
वह तकनीकों का समूह जिसका उद्देश्य मुख्य मॉडल द्वारा संसाधित होने से पहले संभावित रूप से हेरफेर किए गए इनपुट को स्वचालित रूप से पहचानना है। ये सिस्टम अक्सर मेटा-क्लासिफायर या एक्टिवेशन के सांख्यिकीय विश्लेषण का उपयोग करते हैं।
सत्यापन द्वारा प्रशिक्षण
वह प्रशिक्षण विधि जो निर्दिष्ट मजबूती गुणों को सुनिश्चित करने के लिए लर्निंग लूप में औपचारिक सत्यापनकर्ताओं को एकीकृत करती है। यह दृष्टिकोण प्रदर्शन अनुकूलन को गणितीय रूप से सिद्ध सुरक्षा बाधाओं के साथ जोड़ता है।
भौतिक प्रतिकूल हमले
वे हमले जहां प्रतिकूल व्यवधान विज़न सिस्टम को धोखा देने के लिए वास्तविक दुनिया में भौतिक वस्तुओं पर लागू किए जाते हैं। इन हमलों को रोशनी की स्थितियों, दृश्य कोणों और अन्य पर्यावरणीय चरों पर विचार करना होगा।