ترميز
تقسيم الكلمات (Tokeniser)
أداة أو خوارزمية محددة تطبق قواعد وطرق تقسيم النص إلى رموز (tokens) وفقًا لمخطط محدد مسبقًا. تشمل أدوات تقسيم الكلمات الحديثة معالجات مسبقة مثل توحيد يونيكود (Unicode normalization) والتقسيم المسبق قبل التجزئة الرئيسية.
← رجوع