قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
تقسيم الكلمات الفرعية (Subword Tokenization)
تقنية لتقسيم النص إلى وحدات لغوية أصغر من الكلمات ولكن أكبر من الأحرف، مما يسمح بإدارة فعالة للمفردات والكلمات النادرة في نماذج المحولات (transformers).
رمز غير معروف (UNK)
رمز خاص يستخدم لتمثيل الكلمات أو الكلمات الفرعية غير الموجودة في مفردات أداة التقسيم (tokenizer)، مما يسمح للنموذج بالتعامل مع المدخلات خارج المفردات أثناء الاستدلال.
التحليل الصرفي (Morphological Analysis)
عملية تحديد المورفيمات والهياكل النحوية في الكلمات، محسّنة بواسطة أدوات تقسيم الكلمات الفرعية التي تلتقط بشكل طبيعي الانتظامات الصرفية للغات.
تقسيم على مستوى الأحرف (Character-level Tokenization)
نهج تقسيم يعامل كل حرف فردي كرمز (token)، مما يلغي مشاكل المفردات ولكنه يزيد من طول التسلسلات على حساب الكفاءة الحسابية.
تقسيم على مستوى الكلمات (Word-level Tokenization)
طريقة تقليدية تستخدم الكلمات الكاملة كوحدات رمزية، محدودة بانفجار المفردات وعدم القدرة على التعامل مع الكلمات خارج المفردات والتغيرات الصرفية.
تسربات BPE (BPE Dropouts)
تقنية تنظيمية تُدخل العشوائية في عملية تقسيم BPE عن طريق تجاهل بعض عمليات الدمج أثناء التدريب، مما يحسن متانة النموذج وقدرته على التعميم.
رموز خاصة (CLS, SEP, PAD, MASK)
رموز محجوزة بوظائف محددة في BERT: CLS للتصنيف، SEP للفصل، PAD للمحاذاة، و MASK للإخفاء أثناء التدريب المسبق.
تعيين معرف الرمز (Token ID Mapping)
تطابق أحادي الاتجاه بين كل رمز في المفردات ومعرف رقمي فريد، مما يسمح بالتحويل الفعال بين التمثيلات النصية والرقمية في النماذج العصبية.
ضغط الرموز
الهدف الرئيسي لتقسيم الكلمات الفرعية (subword tokenization) الذي يهدف إلى تقليل متوسط عدد الرموز لكل كلمة مع الحفاظ على حجم مفردات معقول لأداء حاسوبي أمثل.
عتبة تكرار الرمز
معامل يحدد الحد الأدنى للتكرار الذي يجب أن يصل إليه الرمز ليتم تضمينه في المفردات، وهو أمر بالغ الأهمية لتحقيق التوازن بين التغطية وحجم المفردات في تقسيم الكلمات الفرعية.
خوارزمية تجزئة الكلمات الفرعية
مجموعة من القواعد والاستدلالات التي تحدد كيفية تقسيم الكلمات غير المعروفة إلى كلمات فرعية موجودة في المفردات، بناءً على مبادئ تعظيم الاحتمالية وتقليل الأجزاء.
تغطية المفردات
مقياس يقيم نسبة النص التي يمكن تمثيلها بدون رموز غير معروفة (UNK)، ويتم تحسينه بواسطة خوارزميات الكلمات الفرعية لتحقيق تغطية تزيد عادة عن 99.9% في النصوص الحديثة.