قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
تقسيم الكلمات (Tokeniser)
أداة أو خوارزمية محددة تطبق قواعد وطرق تقسيم النص إلى رموز (tokens) وفقًا لمخطط محدد مسبقًا. تشمل أدوات تقسيم الكلمات الحديثة معالجات مسبقة مثل توحيد يونيكود (Unicode normalization) والتقسيم المسبق قبل التجزئة الرئيسية.
تقسيم الكلمات حسب الحرف
نهج دقيق حيث يصبح كل حرف فردي رمزًا (token)، مما يلغي تمامًا مشكلة الكلمات خارج المفردات. على الرغم من كونه مثاليًا نظريًا للتغطية، إلا أن هذه الطريقة تزيد بشكل كبير من طول التسلسلات وتقلل من الكفاءة الحسابية.
تقسيم الكلمات حسب الكلمة
طريقة تقليدية حيث تصبح كل كلمة كاملة (محددة بمسافات أو علامات ترقيم) رمزًا فريدًا. يعاني هذا النهج من قيود كبيرة مع الكلمات النادرة والأخطاء الإملائية والمفردات الكبيرة، مما يجعله غير مناسب لنموذج اللغة الكبيرة (LLM) الحديثة.
تقسيم الكلمات الفرعية
استراتيجية وسيطة تقسم الكلمات إلى أجزاء ذات معنى بناءً على إحصائيات التزامن (co-occurrence)، مثل البادئات أو اللواحق أو الجذور. تمثل هذه الطريقة أحدث ما توصلت إليه التقنيات في محولات (transformers) اللغة، حيث تعمل على تحسين التوازن بين تغطية المفردات والكفاءة الحسابية.
مساحة تقسيم الكلمات
بعد رياضي محدد بالحجم الكلي للمفردات، حيث يتم تعيين كل رمز (token) لمعرف رقمي فريد. تحدد هذه المساحة التعقيد الحسابي للمعالجة وتؤثر بشكل مباشر على حجم التضمينات (embeddings) وطبقات الانتباه (attention layers) في بنى المحولات (transformers).
تقسيم الكلمات السياقي
تقنية متقدمة حيث يعتمد قرار التجزئة على السياق المحيط، مما يسمح بتقسيمات مختلفة لنفس الكلمة حسب استخدامها. يحسن هذا النهج، المستخدم في نماذج مثل XLNet، التمثيل الدلالي ولكنه يزيد بشكل كبير من التعقيد الحسابي.
خارج المفردات (OOV)
مشكلة تحدث عندما تظهر رموز (tokens) غير موجودة في المفردات المحددة مسبقًا أثناء الاستدلال، مما يتطلب استراتيجيات إدارة محددة. تقلل طرق تقسيم الكلمات الفرعية الحديثة بشكل كبير من حدوث OOV، لكن معالجة هذه الحالات تظل حاسمة للمتانة.
تقسيم الكلمات الجشع (Greedy Tokenization)
استراتيجية تجزئة تختار دائمًا أطول رمز (token) ممكن يتوافق مع بداية الكلمة المتبقية للمعالجة. يمكن أن يؤدي هذا النهج البسيط والسريع أحيانًا إلى نتائج دون المستوى الأمثل مقارنة بالطرق الشاملة التي تأخذ في الاعتبار التسلسل بأكمله.
التجزئة الاحتمالية
نهج يستخدم نماذج احتمالية لتقييم التجزئات المختلفة الممكنة واختيار الأكثر ترجيحًا بناءً على مجموعة البيانات التدريبية. على عكس الطرق الحتمية، يمكنها إنتاج تجزئات متغيرة بناءً على الاحتمالات الشرطية المستفادة.