के-फोल्ड क्रॉस वैलिडेशन

📖

शब्द

मॉडल मूल्यांकन की एक तकनीक जो डेटासेट को K बराबर भागों में विभाजित करती है, जहाँ प्रत्येक भाग बारी-बारी से टेस्ट सेट के रूप में कार्य करता है जबकि अन्य K-1 भाग ट्रेनिंग सेट के रूप में काम करते हैं। यह विधि मूल्यांकन के विचरण को कम करके मॉडल प्रदर्शन का अधिक मजबूत अनुमान प्राप्त करने की अनुमति देती है।

📖

शब्द

स्ट्रैटिफाइड के-फोल्ड क्रॉस वैलिडेशन

के-फोल्ड का एक प्रकार जो प्रत्येक भाग में कक्षाओं के वितरण को बनाए रखता है, असंतुलित डेटासेट के लिए आवश्यक है। यह दृष्टिकोण सुनिश्चित करता है कि प्रत्येक फोल्ड मूल डेटासेट के वैश्विक वर्ग वितरण का सही प्रतिनिधित्व करता है।

📖

शब्द

होल्डआउट विधि

मूल्यांकन की एक सरल विधि जो डेटासेट को दो अलग-अलग सेटों में विभाजित करती है: प्रशिक्षण और परीक्षण, आमतौर पर 70/30 या 80/20 के अनुपात में। हालाँकि कार्यान्वयन में तेज़ है, यह विधि डेटा के विभाजन के तरीके के आधार पर पक्षपाती प्रदर्शन अनुमान उत्पन्न कर सकती है।

📖

शब्द

रिपीटेड क्रॉस वैलिडेशन

प्रदर्शन अनुमान के विचरण को कम करने के लिए विभिन्न यादृच्छिक विभाजनों के साथ के-फोल्ड प्रक्रिया को कई बार दोहराने की तकनीक। यह दृष्टिकोण बढ़े हुए कम्प्यूटेशनल लागत पर के-फोल्ड के लाभों को अधिक सांख्यिकीय मजबूती के साथ जोड़ता है।

📖

शब्द

बूटस्ट्रैप वैलिडेशन

मूल डेटा से कई प्रशिक्षण और परीक्षण सेट बनाने के लिए प्रतिस्थापन के साथ नमूना लेने का उपयोग करने वाली मूल्यांकन विधि। बूटस्ट्रैप मॉडल प्रदर्शन के विचरण का अनुमान लगाने की अनुमति देता है और छोटे आकार के डेटासेट के साथ विशेष रूप से उपयोगी है।

📖

शब्द

ग्रिड सर्च के साथ क्रॉस वैलिडेशन

प्रत्येक कॉन्फ़िगरेशन का मूल्यांकन करने के लिए क्रॉस वैलिडेशन का उपयोग करके निर्दिष्ट हाइपरपैरामीटर के सभी संयोजनों का व्यवस्थित रूप से परीक्षण करने वाली अनुकूलन तकनीक। यह विधि परिभाषित ग्रिड में सर्वोत्तम संयोजन खोजने की गारंटी देती है लेकिन गणना में बहुत महंगी हो सकती है।

📖

शब्द

रैंडमाइज्ड सर्च के साथ क्रॉस वैलिडेशन

ग्रिड सर्च का विकल्प जो सभी संभावनाओं की पूरी तरह से खोज करने के बजाय हाइपरपैरामीटर के एक निश्चित संख्या में यादृच्छिक नमूना लेता है। यह दृष्टिकोण ग्रिड सर्च की तुलना में कम मूल्यांकन के साथ अच्छे हाइपरपैरामीटर खोजने के लिए अक्सर अधिक कुशल होता है।

📖

शब्द

लर्निंग कर्व

प्रशिक्षण सेट के आकार के आधार पर मॉडल प्रदर्शन के विकास को दर्शाने वाला ग्राफ, जिसका उपयोग ओवरफिटिंग या अंडरफिटिंग का निदान करने के लिए किया जाता है। लर्निंग कर्व यह निर्धारित करने में मदद करते हैं कि क्या अधिक डेटा मॉडल के प्रदर्शन में सुधार कर सकता है।

📖

शब्द

वैलिडेशन कर्व

एकल हाइपरपैरामीटर के प्रशिक्षण और सत्यापन प्रदर्शन पर प्रभाव को दृश्य रूप से दिखाने वाला नैदानिक उपकरण। वैलिडेशन कर्व हाइपरपैरामीटर के इष्टतम मूल्यों की पहचान करने और पूर्वाग्रह-विचरण समस्याओं का पता लगाने में सहायक होती है।

📖

शब्द

क्रॉस-एन्ट्रॉपी

दो संभाव्यता वितरणों के बीच विचलन को मापने वाला हानि फलन, जिसका वर्गीकरण समस्याओं में व्यापक उपयोग होता है। क्रॉस-एन्ट्रॉपी गलत भविष्यवाणियों को अधिक दंडित करती है जब वे आत्मविश्वासी होती हैं, जिससे यह एक उत्कृष्ट प्रशिक्षण मीट्रिक बन जाती है।

📖

शब्द

मीन स्क्वेर्ड एरर

पूर्वानुमानित और वास्तविक मूल्यों के बीच अंतर के वर्गों के औसत की गणना करने वाला मूल्यांकन मीट्रिक, जो बड़ी त्रुटियों के प्रति विशेष रूप से संवेदनशील है। एमएसई का उपयोग आमतौर पर प्रतिगमन समस्याओं के लिए किया जाता है और यह एमएई की तुलना में बड़ी त्रुटियों को अधिक दंडित करता है।

📖

शब्द

मीन एब्सोल्यूट एरर

पूर्वानुमान और वास्तविक मूल्यों के बीच त्रुटियों के निरपेक्ष मूल्यों के औसत को मापने वाला प्रतिगमन मीट्रिक, जो लक्ष्य चर की इकाइयों में सीधी व्याख्या प्रदान करता है। एमएसई के विपरीत, एमएई आउटलायर्स के प्रति कम संवेदनशील है और औसत निरपेक्ष त्रुटि का प्रतिनिधित्व करता है।

📖

शब्द

आर² स्कोर

लक्ष्य चर के विचरण के अनुपात को मापने वाला निर्धारण गुणांक, जो -∞ से 1 के बीच भिन्न होता है। 1 का आर² एक पूर्ण पूर्वानुमान दर्शाता है, जबकि नकारात्मक मूल्य सुझाव देते हैं कि मॉडल एक साधारण औसत से भी कम प्रदर्शन कर रहा है।

📖

शब्द

एफ1-स्कोर

परिशुद्धता और रिकॉल के हार्मोनिक माध्य की गणना करने वाला वर्गीकरण मीट्रिक, जो असंतुलित डेटासेट के लिए विशेष रूप से उपयोगी है। एफ1-स्कोर एक ही माप में झूठे सकारात्मक और झूठे नकारात्मक से बचने की मॉडल की क्षमता को संतुलित करता है।

📖

शब्द

प्रिसिजन-रिकॉल कर्व

विभिन्न वर्गीकरण सीमाओं के लिए परिशुद्धता और रिकॉल के बीच समझौते को दर्शाने वाला ग्राफ, जो असंतुलित डेटा पर मॉडल का मूल्यांकन करने के लिए आवश्यक है। इस वक्र के नीचे का क्षेत्र (AUC-PR) सीमा से स्वतंत्र प्रदर्शन का एक समग्र माप प्रदान करता है।

📖

शब्द

आरओसी कर्व

निर्णय सीमा के विभिन्न स्तरों पर सच्चे सकारात्मक दर बनाम झूठे सकारात्मक दर को दर्शाने वाली वक्र, जो मॉडल की भेदभाव क्षमता को दृश्य रूप से प्रस्तुत करती है। आरओसी वक्र और इसका क्षेत्र (AUC-ROC) द्विआधारी वर्गीकरणकर्ताओं के समग्र प्रदर्शन का मूल्यांकन करने के लिए मानक हैं।

📖

शब्द

एयूसी स्कोर

आरओसी वक्र के नीचे का क्षेत्र जो यह मापता है कि एक क्लासिफायर द्वारा यादृच्छिक सकारात्मक उदाहरण को यादृच्छिक नकारात्मक उदाहरण से अधिक स्कोर देने की संभावना कितनी है। एयूसी एक थ्रेशोल्ड-स्वतंत्र प्रदर्शन माप प्रदान करता है, जो विभिन्न मॉडलों की तुलना करने के लिए विशेष रूप से उपयोगी है।

📖

शब्द

ग्रुप के-फोल्ड क्रॉस-वैलिडेशन

के-फोल्ड का एक प्रकार जो यह सुनिश्चित करता है कि समान समूह कभी भी एक साथ अलग-अलग प्रशिक्षण और परीक्षण सेट में न दिखाई दें। यह दृष्टिकोण तब महत्वपूर्ण होता है जब डेटा में समूह संरचना (रोगी, उपयोगकर्ता) होती है जहां एक ही समूह के अवलोकन आपस में संबंधित होते हैं।

एआई शब्दावली