قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
نمذجة اللغة المقنعة (MLM)
هدف التدريب المسبق حيث يتم إخفاء 15% من التوكنات بشكل عشوائي ويجب على النموذج التنبؤ بها باستخدام السياق ثنائي الاتجاه. تتيح هذه التقنية لـ BERT تعلم تمثيلات سياقية عميقة عن طريق إجبار النموذج على فهم العلاقات الدلالية بين الكلمات.
التنبؤ بالجملة التالية (NSP)
مهمة تدريب مسبق ثنائية حيث يتنبأ النموذج ما إذا كانت الجملتان المقدمتان متتاليتين في النص الأصلي. على الرغم من أنها مثيرة للجدل، تساعد هذه الهدف BERT على فهم العلاقات بين الجمل لمهام مثل QA و NLI.
ترميز WordPiece
خوارزمية تقسيم تقسم الكلمات إلى وحدات فرعية مورفولوجية للتعامل مع المفردات غير المعروفة وتحسين التمثيل. تتيح هذه الطريقة لـ BERT معالجة الكلمات النادرة والمصطلحات الجديدة بشكل فعال عن طريق تحليلها إلى توكنات معروفة.
آلية الانتباه الذاتي
آلية أساسية حيث يقوم كل توكن بحساب أوزان الانتباه بالنسبة لجميع التوكنات الأخرى في التسلسل. تتيح هذه العملية لـ BERT التقاط التبعيات بعيدة المدى وإنشاء تمثيلات سياقية غنية.
تضمينات المقاطع
تضمينات متخصصة تميز بين المقاطع المختلفة في الإدخال، تُستخدم عادةً لفصل الجمل A و B في مهام أزواج الجمل. تتيح هذه التضمينات للنموذج التمييز بين سياق كل مقطع.
كتلة مشفر Transformer
الوحدة الحسابية الأساسية لـ BERT المكونة من انتباه متعدد الرؤوس يليه شبكة feed-forward مع اتصالات متبقية وتطبيع. تعالج كل كتلة التسلسل بأكمله بشكل متزامن، محافظةً على العلاقات العامة.
طبقة التجميع
الطبقة النهائية التي تجمع تمثيلات التوكنات في متجه واحد لمهام التصنيف. يستخدم BERT عادةً تمثيل توكن [CLS] أو يقوم بالتجميع المتوسط على جميع التوكنات.
الحالات المخفية
تمثيلات متجهية عالية الأبعاد يتم إنتاجها في كل طبقة من Transformer لكل توكن في التسلسل. تلتقط هذه الحالات المخفية تدريجيًا خصائص دلالية مجردة越来越多ً.
التدريب المسبق
مرحلة تدريب غير خاضعة للإشراف على مجموعات نصية ضخمة حيث يتعلم BERT تمثيلات لغوية عامة عبر MLM و NSP. هذه المرحلة تؤسس معرفة النموذج الأساسية قبل الضبط الدقيق الخاص بالمهام.
بنية المشفر فقط
هيكل BERT الذي يستخدم فقط كتل المشفر من Transformer، على عكس نماذج المشفر-المفكك. هذه البنية محسّنة لمهام فهم النصوص وتصنيفها.
رمز [CLS]
رمز خاص يضاف في بداية كل تسلسل إدخال تُستخدم تمثيلاته النهائية لمهام التصنيف. هذا الرمز يجمع المعلومات السياقية لكل التسلسل لاتخاذ قرارات على مستوى شامل.