एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
C4.5
1993 में क्विनलन द्वारा विकसित एक पर्यवेक्षित शिक्षण एल्गोरिथ्म, ID3 का विस्तार जो निरंतर विशेषताओं और गुम डेटा को संभालने में सक्षम है, विभाजन के मानदंड के रूप में गेन रेशियो का उपयोग करता है।
C5.0
क्विनलन द्वारा विकसित C4.5 का उन्नत संस्करण, जो बेहतर प्रदर्शन, बड़े डेटासेट के अधिक प्रभावी प्रबंधन और ट्री एनसेमल्स (बूस्टिंग) उत्पन्न करने की क्षमता प्रदान करता है।
गेन रेशियो
C4.5 में उपयोग किया जाने वाला विभाजन मानदंड जो जानकारी लाभ के पक्षपात को कई मान वाले विशेषताओं के प्रति सुधारता है, जिसकी गणना विशेषता की आंतरिक एन्ट्रॉपी द्वारा जानकारी लाभ को विभाजित करके की जाती है।
आंतरिक एन्ट्रॉपी
गेन रेशियो की गणना में उपयोग किया जाने वाला माप जो बड़ी संख्या में मान वाले विशेषताओं को दंडित करता है, जो किसी विशेषता के मूल्यों के वितरण में निहित संभावित जानकारी की मात्रा का प्रतिनिधित्व करता है।
बाइनरी डिस्क्रेटाइजेशन
C4.5 द्वारा उपयोग की जाने वाली तकनीक जो निरंतर विशेषताओं को बाइनरी कैटेगोरिकल विशेषताओं में बदलने के लिए इष्टतम विभाजन बिंदु की पहचान करती है जो जानकारी लाभ को अधिकतम करता है।
गुम मान प्रबंधन
C4.5 की क्षमता जो गुम विशेषताओं वाले इंस्टेंसेस को प्रोबेबिलिस्टिक वेइटिंग विधियों का उपयोग करके या संभावित शाखाओं के अनुसार इंस्टेंस को आंशिक रूप से वितरित करके संभालती है।
निराशावादी प्रूनिंग
C4.5 में जटिलता घटाने की विधि जो बाइनोमियल वितरण पर आधारित त्रुटि का एक सांख्यिकीय निराशावादी अनुमान का उपयोग करके अनावश्यक शाखाओं को हटा देती है।
C5.0 बूस्टिंग
C5.0 में लागू की गई एनसेमल लर्निंग तकनीक जो कई कमजोर डिसीजन ट्री को एक मजबूत क्लासिफायर बनाने के लिए जोड़ती है, जिससे भविष्यवाणी की सटीकता में महत्वपूर्ण सुधार होता है।
इष्टतम विभाजन बिंदु
C4.5 द्वारा निर्धारित सीमा मूल्य जो एक निरंतर विशेषता को दो अंतरालों में विभाजित करने के लिए उपयोग किया जाता है, परिणामी विभाजन के सूचना लाभ को अधिकतम करने के लिए चुना जाता है।
मानकीकृत सूचना लाभ
सूचना लाभ का एक प्रकार जिसका उपयोग कुछ संदर्भों में पूर्वाग्रह से बचने के लिए किया जाता है, लाभ अनुपात के समान लेकिन मानकीकरण के लिए थोड़ा अलग गणितीय दृष्टिकोण के साथ।
C4.5 निर्णय वृक्ष
C4.5 द्वारा उत्पादित पदानुक्रमिक संरचना जहां प्रत्येक आंतरिक नोड एक विशेषता पर परीक्षण का प्रतिनिधित्व करता है, प्रत्येक शाखा एक परीक्षण परिणाम का प्रतिनिधित्व करती है, और प्रत्येक पत्ती एक वर्ग लेबल का प्रतिनिधित्व करती है।
C5.0 स्लाइडिंग विंडो
C5.0 में एक अनुकूलन जो बड़े डेटासेट को कुशलतापूर्वक संसाधित करने के लिए नमूनों की एक विंडो का उपयोग करता है जो वृक्ष निर्माण के दौरान पूरे डेटासेट के माध्यम से गति करती है।
विश्वास गुणांक
C4.5 में एक पैरामीटर (आमतौर पर 25%) जिसका उपयोग काटने के लिए त्रुटि अनुमान में किया जाता है, वृक्ष शाखाओं के प्रदर्शन के मूल्यांकन में निराशावाद के स्तर को नियंत्रित करता है।
C4.5 IF-THEN नियम
निर्णय वृक्षों का वैकल्पिक प्रतिनिधित्व जो C4.5 द्वारा उत्पादित होता है जहां जड़ से पत्ती तक का प्रत्येक पथ एक सशर्त वर्गीकरण नियम में परिवर्तित हो जाता है।
C4.5 गणनात्मक जटिलता
C4.5 का एल्गोरिदमिक लागत O(n * m * log n) क्रम का है जहां n इंस्टेंस की संख्या है और m विशेषताओं की संख्या है, सॉर्टिंग और वेतन वृद्धि गणना तकनीकों द्वारा अनुकूलित।
बहु-मार्ग विभाजन
C4.5 की क्षमता जो वर्गीकृत विशेषताओं के लिए दो से अधिक शाखाओं के साथ नोड बनाती है, अन्य एल्गोरिदम के विपरीत जो बाइनरी विभाजन तक सीमित हैं।