टोकनाइजेशन
शब्दावली संक्षेपण
गणनात्मक दक्षता को अनुकूलित करने के लिए कम आवृत्ति वाले टोकन को उप-शब्दों या [UNK] टोकन से प्रतिस्थापित करते हुए, शब्दावली को सबसे अधिक आवृत्ति वाले N टोकन तक सीमित करने की प्रक्रिया।
← पीछे