🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक

एआई शब्दावली

आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश

179
श्रेणियाँ
1,183
उप-श्रेणियाँ
14,904
शब्द
📖
शब्द

बाइट पेयर एन्कोडिंग (BPE)

डेटा संपीड़न एल्गोरिदम जो टोकनाइजेशन के लिए अनुकूलित है, जो सबसे अधिक बार आने वाले वर्ण जोड़ों को पुनरावृत्त रूप से मिलाकर अनुकूलित उपशब्दों की शब्दावली बनाता है।

📖
शब्द

वर्डपीस

गूगल द्वारा विकसित BPE का एक प्रकार जो टोकन्स के विलय के दौरान भाषा की संभावना को अधिकतम करता है, विशेष रूप से BERT और इसके प्रकारों में उपयोग किया जाता है।

📖
शब्द

यूनिग्राम लैंग्वेज मॉडल

टोकनाइजेशन की एक दृष्टिकोण जो यूनिग्राम भाषा मॉडल पर आधारित है, जो अनुक्रम में टोकन्स की उत्पाद संभावना को अधिकतम करके सर्वोत्तम विभाजन का चयन करता है।

📖
शब्द

सेंटेंसपीस

भाषा-स्वतंत्र टोकनाइजेशन लाइब्रेरी जो टेक्स्ट को कच्चे यूनिकोड अनुक्रम के रूप में संसाधित करती है, प्रत्येक भाषा के लिए विशिष्ट प्रीप्रोसेसिंग की आवश्यकता को समाप्त करती है।

📖
शब्द

शब्दावली आकार

एक महत्वपूर्ण पैरामीटर जो किसी मॉडल की शब्दावली में अद्वितीय टोकन्स की कुल संख्या निर्धारित करता है, जो सीधे मॉडल के आकार और भाषाई विविधता को संभालने की क्षमता को प्रभावित करता है।

📖
शब्द

विशेष टोकन्स

आरक्षित टोकन्स जैसे [CLS], [SEP], [MASK], [PAD] जिनका उपयोग अनुक्रमों को सीमांकित करने, तत्वों को छिपाने या बैचों को एक समान लंबाई तक भरने के लिए किया जाता है।

📖
शब्द

टोकनाइज़र प्रशिक्षण

टेक्स्ट कॉर्पस से शब्दावली और विभाजन नियमों के स्वचालित सीखने की प्रक्रिया, जो किसी विशिष्ट कार्य या डोमेन के लिए प्रतिनिधित्व को अनुकूलित करती है।

📖
शब्द

उपशब्द नियमितीकरण

डेटा संवर्धन तकनीक जो प्रशिक्षण के दौरान एक ही टेक्स्ट के विभिन्न संभावित विभाजनों को लागू करती है, मॉडल की मजबूती और सामान्यीकरण में सुधार करती है।

📖
शब्द

शब्दावली संक्षेपण

गणनात्मक दक्षता को अनुकूलित करने के लिए कम आवृत्ति वाले टोकन को उप-शब्दों या [UNK] टोकन से प्रतिस्थापित करते हुए, शब्दावली को सबसे अधिक आवृत्ति वाले N टोकन तक सीमित करने की प्रक्रिया।

📖
शब्द

टोकनकरण पाइपलाइन

अंतिम टोकन उत्पन्न करने के लिए सामान्यीकरण, पूर्व-टोकनकरण, मॉडल विभाजन और पोस्ट-प्रोसेसिंग सहित पूर्व-प्रसंस्करण चरणों का अनुक्रमिक क्रम।

📖
शब्द

टोकनकरण कॉन्फ़िगरेशन

किसी विशिष्ट टोकनकरण के व्यवहार की सटीक पुनरावृत्ति के लिए आवश्यक सभी हाइपरपैरामीटर और मेटाडेटा वाली JSON कॉन्फ़िगरेशन फ़ाइल।

📖
शब्द

फास्ट टोकनकरण

रस्ट और कुशल डेटा संरचनाओं का उपयोग करके टोकनकरण के अनुकूलित कार्यान्वयन, जो शुद्ध पायथन कार्यान्वयन की तुलना में 10-100 गुना बेहतर प्रदर्शन प्रदान करते हैं।

📖
शब्द

टोकनकरण अनुमान

मॉडल द्वारा प्रसंस्करण के लिए तैयार कच्चे पाठ को टोकन अनुक्रमों में परिवर्तित करते हुए नए पाठ डेटा पर प्रशिक्षित टोकनकरण को लागू करने का चरण।

🔍

कोई परिणाम नहीं मिला