قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
شبكة التوجيه (Gating Network)
شبكة عصبية فرعية ضمن بنية MoE مسؤولة عن حساب أوزان التنشيط لكل خبير، عادةً باستخدام دالة softmax لتوليد توزيع احتمالي على الخبراء.
خبير
نموذج فرعي فردي ضمن بنية MoE، عادةً ما يكون شبكة عصبية، يتم تدريبه للتخصص في مساحة فرعية معينة من توزيع بيانات الإدخال.
توجيه Top-k
استراتيجية توجيه حيث يتم تنشيط خبراء k فقط الذين لديهم أعلى أوزان تنشيط لمدخل معين، مما يقلل من التكلفة الحسابية مع الحفاظ على أداء النموذج.
آلية التوجيه
عملية خوارزمية تحدد كيفية تعيين الرموز (tokens) أو أمثلة الإدخال للخبراء المختلفين في نموذج MoE، مما يؤثر بشكل مباشر على الكفاءة وتوازن الحمل.
خسارة مساعدة
مصطلح تنظيم (regularization term) يُضاف إلى دالة الخسارة الكلية لنموذج MoE لتشجيع التوزيع المتوازن للحركة المرورية بين الخبراء، وبالتالي تجنب هيمنة مجموعة فرعية صغيرة من الخبراء.
سعة زائدة
ظاهرة في نماذج MoE حيث تتجاوز السعة الكلية للخبراء النشطين سعة نموذج كثيف قياسي، مما يسمح بتوسيع نطاق عدد المعلمات بكفاءة دون زيادة متناسبة في التكلفة الحسابية.
مزيج من الأعماق (Mixture-of-Depths)
متغير من بنية MoE حيث لا يتم التوجيه بين خبراء متميزين، بل بين أعماق مختلفة لنفس شبكة المحولات (transformers)، مما يؤدي إلى تنشيط طبقات بشكل انتقائي.
MoE المتفرقة (Sparse MoE)
تطبيق لـ Mixture of Experts حيث يتم تنشيط جزء فقط من الخبراء لكل رمز (token)، مما يسمح بزيادة هائلة في عدد معلمات النموذج مع الحفاظ على تكلفة الاستدلال ثابتة لكل رمز.
خبراء الخلط الكثيفة (Dense MoE)
نسخة من بنية خبراء الخلط (MoE) حيث يساهم جميع الخبراء في المخرجات النهائية، مرجحين بواسطة شبكة التوجيه (gating network)، على عكس الإصدارات المتفرقة التي لا تنشط سوى مجموعة فرعية منهم.
موازنة الحمل (Load Balancing)
قضية حاسمة في تدريب نماذج خبراء الخلط (MoE)، تهدف إلى ضمان حصول كل خبير على كمية متساوية تقريبًا من بيانات التدريب لتجنب الاستخدام الناقص أو التخصص المفرط.
مزيج من المحولات (Mixture of Adapters)
تطبيق مبدأ خبراء الخلط (MoE) على المحولات، وهي وحدات بارامترية صغيرة تُدرج في نموذج أساسي مُدرب مسبقًا، حيث تقوم شبكة التوجيه باختيار ودمج المحولات الأكثر صلة.
الحوسبة الشرطية (Conditional Computation)
مبدأ أساسي لنماذج خبراء الخلط (MoE)، والذي بموجبه تكون الحسابات (تنشيط الخبراء) مشروطة بالمدخلات، مما يسمح بالاستخدام الديناميكي والفعال للموارد الحسابية.
ضوضاء التوجيه (Gating Noise)
تقنية تنظيم (regularization) تتضمن إضافة ضوضاء عشوائية (مثل ضوضاء غاوسية) إلى لوجيتس شبكة التوجيه قبل تطبيق دالة السوفت ماكس (softmax)، لتشجيع الاستكشاف وتحسين متانة التوجيه.
مزيج من السوفت ماكس (Mixture of Softmaxes)
تخصص لخبراء الخلط (MoE) حيث يكون الخبراء عبارة عن طبقات سوفت ماكس منفصلة، تُستخدم لنمذجة التوزيعات متعددة الأنماط المعقدة، خاصة في معالجة اللغة الطبيعية.
تكلفة التوجيه (Routing Cost)
العبء الحسابي الزائد المرتبط بتقييم شبكة التوجيه وتوجيه البيانات إلى الخبراء المختارين، وهو عامل رئيسي في تصميم نماذج خبراء الخلط (MoE) الفعالة.
مزيج من الرؤوس (Mixture of Heads)
تطبيق نموذج خبراء الخلط (MoE) على آلية الانتباه متعدد الرؤوس في المحولات (Transformers)، حيث تقوم شبكة التوجيه باختيار مجموعة فرعية من رؤوس الانتباه لتنشيطها لمدخل معين.