تجزئة الكلمات الفرعية - مسرد الذكاء الاصطناعي

📖

المصطلحات

تقسيم الكلمات الفرعية (Subword Tokenization)

تقنية لتقسيم النص إلى وحدات لغوية أصغر من الكلمات ولكن أكبر من الأحرف، مما يسمح بإدارة فعالة للمفردات والكلمات النادرة في نماذج المحولات (transformers).

📖

المصطلحات

رمز غير معروف (UNK)

رمز خاص يستخدم لتمثيل الكلمات أو الكلمات الفرعية غير الموجودة في مفردات أداة التقسيم (tokenizer)، مما يسمح للنموذج بالتعامل مع المدخلات خارج المفردات أثناء الاستدلال.

📖

المصطلحات

التحليل الصرفي (Morphological Analysis)

عملية تحديد المورفيمات والهياكل النحوية في الكلمات، محسّنة بواسطة أدوات تقسيم الكلمات الفرعية التي تلتقط بشكل طبيعي الانتظامات الصرفية للغات.

📖

المصطلحات

تقسيم على مستوى الأحرف (Character-level Tokenization)

نهج تقسيم يعامل كل حرف فردي كرمز (token)، مما يلغي مشاكل المفردات ولكنه يزيد من طول التسلسلات على حساب الكفاءة الحسابية.

📖

المصطلحات

تقسيم على مستوى الكلمات (Word-level Tokenization)

طريقة تقليدية تستخدم الكلمات الكاملة كوحدات رمزية، محدودة بانفجار المفردات وعدم القدرة على التعامل مع الكلمات خارج المفردات والتغيرات الصرفية.

📖

المصطلحات

تسربات BPE (BPE Dropouts)

تقنية تنظيمية تُدخل العشوائية في عملية تقسيم BPE عن طريق تجاهل بعض عمليات الدمج أثناء التدريب، مما يحسن متانة النموذج وقدرته على التعميم.

📖

المصطلحات

رموز خاصة (CLS, SEP, PAD, MASK)

رموز محجوزة بوظائف محددة في BERT: CLS للتصنيف، SEP للفصل، PAD للمحاذاة، و MASK للإخفاء أثناء التدريب المسبق.

📖

المصطلحات

تعيين معرف الرمز (Token ID Mapping)

تطابق أحادي الاتجاه بين كل رمز في المفردات ومعرف رقمي فريد، مما يسمح بالتحويل الفعال بين التمثيلات النصية والرقمية في النماذج العصبية.

📖

المصطلحات

ضغط الرموز

الهدف الرئيسي لتقسيم الكلمات الفرعية (subword tokenization) الذي يهدف إلى تقليل متوسط عدد الرموز لكل كلمة مع الحفاظ على حجم مفردات معقول لأداء حاسوبي أمثل.

📖

المصطلحات

عتبة تكرار الرمز

معامل يحدد الحد الأدنى للتكرار الذي يجب أن يصل إليه الرمز ليتم تضمينه في المفردات، وهو أمر بالغ الأهمية لتحقيق التوازن بين التغطية وحجم المفردات في تقسيم الكلمات الفرعية.

📖

المصطلحات

خوارزمية تجزئة الكلمات الفرعية

مجموعة من القواعد والاستدلالات التي تحدد كيفية تقسيم الكلمات غير المعروفة إلى كلمات فرعية موجودة في المفردات، بناءً على مبادئ تعظيم الاحتمالية وتقليل الأجزاء.

📖

المصطلحات

تغطية المفردات

مقياس يقيم نسبة النص التي يمكن تمثيلها بدون رموز غير معروفة (UNK)، ويتم تحسينه بواسطة خوارزميات الكلمات الفرعية لتحقيق تغطية تزيد عادة عن 99.9% في النصوص الحديثة.

قاموس الذكاء الاصطناعي

تقسيم الكلمات الفرعية (Subword Tokenization)

رمز غير معروف (UNK)

التحليل الصرفي (Morphological Analysis)

تقسيم على مستوى الأحرف (Character-level Tokenization)

تقسيم على مستوى الكلمات (Word-level Tokenization)

تسربات BPE (BPE Dropouts)

رموز خاصة (CLS, SEP, PAD, MASK)

تعيين معرف الرمز (Token ID Mapping)

ضغط الرموز

عتبة تكرار الرمز

خوارزمية تجزئة الكلمات الفرعية

تغطية المفردات

لم يتم العثور على نتائج