एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
के-मीन्स क्लस्टरिंग
एक विभाजन एल्गोरिथम जो दस्तावेजों को K क्लस्टरों में विभाजित करता है, इंट्रा-क्लस्टर भिन्नता को कम करता है, और प्रत्येक दस्तावेज़ को निकटतम केंद्रबिंदु को असाइन करता है।
पदानुक्रमित क्लस्टरिंग
एक क्लस्टरिंग विधि जो नेस्टेड क्लस्टरों का एक पदानुक्रम बनाती है, या तो बॉटम-अप (एग्लोमेरेटिव) या टॉप-डाउन (डिविज़िव) दृष्टिकोण से, जिसे डेंड्रोग्राम द्वारा दर्शाया जाता है।
जैकार्ड इंडेक्स
एक समानता गुणांक जो दो दस्तावेज़ सेटों के बीच समानता को उनके प्रतिच्छेदन और उनके संघ के अनुपात की गणना करके मापता है।
अव्यक्त सिमेंटिक विश्लेषण (LSA)
एक आयामी कमी तकनीक जो शब्दों और दस्तावेजों के बीच अव्यक्त सिमेंटिक संबंधों को खोजने के लिए एकल मूल्य अपघटन (SVD) का उपयोग करती है।
एन-ग्राम्स
एक पाठ में n तत्वों (शब्दों, वर्णों) के निरंतर अनुक्रम जिनका उपयोग स्थानीय संदर्भ को कैप्चर करने और दस्तावेजों के सिमेंटिक प्रतिनिधित्व को बेहतर बनाने के लिए किया जाता है।
एल्बो विधि
क्लस्टरों की इष्टतम संख्या निर्धारित करने के लिए एक अनुमानी तकनीक, उस बिंदु की पहचान करके जहां अतिरिक्त क्लस्टरों को जोड़ने से इंट्रा-क्लस्टर भिन्नता में अब महत्वपूर्ण कमी नहीं आती है।
एग्लोमेरेटिव क्लस्टरिंग
पदानुक्रमित क्लस्टरिंग का एक बॉटम-अप दृष्टिकोण जो एक पूर्व-निर्धारित स्टॉपिंग मानदंड तक पहुंचने तक सबसे निकटतम क्लस्टरों को पुनरावृत्त रूप से मर्ज करता है।
दस्तावेज़ क्लस्टरिंग
दस्तावेजों को उनकी सामग्री समानता के आधार पर क्लस्टरों में स्वचालित रूप से समूहित करने की प्रक्रिया, जो विषयगत संरचनाओं के संगठन और खोज को सक्षम बनाती है।
पद आवृत्ति
एक दस्तावेज़ में एक पद के प्रकट होने की आवृत्ति का सामान्यीकृत माप, जिसे अक्सर वेक्टर स्पेस मॉडल में एक मूलभूत घटक के रूप में उपयोग किया जाता है।
दस्तावेज़-पद मैट्रिक्स
एक सारणीबद्ध डेटा संरचना जहाँ प्रत्येक पंक्ति एक दस्तावेज़ का प्रतिनिधित्व करती है और प्रत्येक कॉलम शब्दावली से एक पद का प्रतिनिधित्व करता है, जिसमें सेल संबंधित भार होते हैं।