टोकनाइजेशन - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

बाइट पेयर एन्कोडिंग (BPE)

डेटा संपीड़न एल्गोरिदम जो टोकनाइजेशन के लिए अनुकूलित है, जो सबसे अधिक बार आने वाले वर्ण जोड़ों को पुनरावृत्त रूप से मिलाकर अनुकूलित उपशब्दों की शब्दावली बनाता है।

📖

शब्द

वर्डपीस

गूगल द्वारा विकसित BPE का एक प्रकार जो टोकन्स के विलय के दौरान भाषा की संभावना को अधिकतम करता है, विशेष रूप से BERT और इसके प्रकारों में उपयोग किया जाता है।

📖

शब्द

यूनिग्राम लैंग्वेज मॉडल

टोकनाइजेशन की एक दृष्टिकोण जो यूनिग्राम भाषा मॉडल पर आधारित है, जो अनुक्रम में टोकन्स की उत्पाद संभावना को अधिकतम करके सर्वोत्तम विभाजन का चयन करता है।

📖

शब्द

सेंटेंसपीस

भाषा-स्वतंत्र टोकनाइजेशन लाइब्रेरी जो टेक्स्ट को कच्चे यूनिकोड अनुक्रम के रूप में संसाधित करती है, प्रत्येक भाषा के लिए विशिष्ट प्रीप्रोसेसिंग की आवश्यकता को समाप्त करती है।

📖

शब्द

शब्दावली आकार

एक महत्वपूर्ण पैरामीटर जो किसी मॉडल की शब्दावली में अद्वितीय टोकन्स की कुल संख्या निर्धारित करता है, जो सीधे मॉडल के आकार और भाषाई विविधता को संभालने की क्षमता को प्रभावित करता है।

📖

शब्द

विशेष टोकन्स

आरक्षित टोकन्स जैसे [CLS], [SEP], [MASK], [PAD] जिनका उपयोग अनुक्रमों को सीमांकित करने, तत्वों को छिपाने या बैचों को एक समान लंबाई तक भरने के लिए किया जाता है।

📖

शब्द

टोकनाइज़र प्रशिक्षण

टेक्स्ट कॉर्पस से शब्दावली और विभाजन नियमों के स्वचालित सीखने की प्रक्रिया, जो किसी विशिष्ट कार्य या डोमेन के लिए प्रतिनिधित्व को अनुकूलित करती है।

📖

शब्द

उपशब्द नियमितीकरण

डेटा संवर्धन तकनीक जो प्रशिक्षण के दौरान एक ही टेक्स्ट के विभिन्न संभावित विभाजनों को लागू करती है, मॉडल की मजबूती और सामान्यीकरण में सुधार करती है।

📖

शब्द

शब्दावली संक्षेपण

गणनात्मक दक्षता को अनुकूलित करने के लिए कम आवृत्ति वाले टोकन को उप-शब्दों या [UNK] टोकन से प्रतिस्थापित करते हुए, शब्दावली को सबसे अधिक आवृत्ति वाले N टोकन तक सीमित करने की प्रक्रिया।

📖

शब्द

टोकनकरण पाइपलाइन

अंतिम टोकन उत्पन्न करने के लिए सामान्यीकरण, पूर्व-टोकनकरण, मॉडल विभाजन और पोस्ट-प्रोसेसिंग सहित पूर्व-प्रसंस्करण चरणों का अनुक्रमिक क्रम।

📖

शब्द

टोकनकरण कॉन्फ़िगरेशन

किसी विशिष्ट टोकनकरण के व्यवहार की सटीक पुनरावृत्ति के लिए आवश्यक सभी हाइपरपैरामीटर और मेटाडेटा वाली JSON कॉन्फ़िगरेशन फ़ाइल।

📖

शब्द

फास्ट टोकनकरण

रस्ट और कुशल डेटा संरचनाओं का उपयोग करके टोकनकरण के अनुकूलित कार्यान्वयन, जो शुद्ध पायथन कार्यान्वयन की तुलना में 10-100 गुना बेहतर प्रदर्शन प्रदान करते हैं।

📖

शब्द

टोकनकरण अनुमान

मॉडल द्वारा प्रसंस्करण के लिए तैयार कच्चे पाठ को टोकन अनुक्रमों में परिवर्तित करते हुए नए पाठ डेटा पर प्रशिक्षित टोकनकरण को लागू करने का चरण।

एआई शब्दावली

बाइट पेयर एन्कोडिंग (BPE)

वर्डपीस

यूनिग्राम लैंग्वेज मॉडल

सेंटेंसपीस

शब्दावली आकार

विशेष टोकन्स

टोकनाइज़र प्रशिक्षण

उपशब्द नियमितीकरण

शब्दावली संक्षेपण

टोकनकरण पाइपलाइन

टोकनकरण कॉन्फ़िगरेशन

फास्ट टोकनकरण

टोकनकरण अनुमान

कोई परिणाम नहीं मिला