مزيج الخبراء - مسرد الذكاء الاصطناعي

📖

المصطلحات

شبكة التوجيه (Gating Network)

شبكة عصبية فرعية ضمن بنية MoE مسؤولة عن حساب أوزان التنشيط لكل خبير، عادةً باستخدام دالة softmax لتوليد توزيع احتمالي على الخبراء.

📖

المصطلحات

خبير

نموذج فرعي فردي ضمن بنية MoE، عادةً ما يكون شبكة عصبية، يتم تدريبه للتخصص في مساحة فرعية معينة من توزيع بيانات الإدخال.

📖

المصطلحات

توجيه Top-k

استراتيجية توجيه حيث يتم تنشيط خبراء k فقط الذين لديهم أعلى أوزان تنشيط لمدخل معين، مما يقلل من التكلفة الحسابية مع الحفاظ على أداء النموذج.

📖

المصطلحات

آلية التوجيه

عملية خوارزمية تحدد كيفية تعيين الرموز (tokens) أو أمثلة الإدخال للخبراء المختلفين في نموذج MoE، مما يؤثر بشكل مباشر على الكفاءة وتوازن الحمل.

📖

المصطلحات

خسارة مساعدة

مصطلح تنظيم (regularization term) يُضاف إلى دالة الخسارة الكلية لنموذج MoE لتشجيع التوزيع المتوازن للحركة المرورية بين الخبراء، وبالتالي تجنب هيمنة مجموعة فرعية صغيرة من الخبراء.

📖

المصطلحات

سعة زائدة

ظاهرة في نماذج MoE حيث تتجاوز السعة الكلية للخبراء النشطين سعة نموذج كثيف قياسي، مما يسمح بتوسيع نطاق عدد المعلمات بكفاءة دون زيادة متناسبة في التكلفة الحسابية.

📖

المصطلحات

مزيج من الأعماق (Mixture-of-Depths)

متغير من بنية MoE حيث لا يتم التوجيه بين خبراء متميزين، بل بين أعماق مختلفة لنفس شبكة المحولات (transformers)، مما يؤدي إلى تنشيط طبقات بشكل انتقائي.

📖

المصطلحات

MoE المتفرقة (Sparse MoE)

تطبيق لـ Mixture of Experts حيث يتم تنشيط جزء فقط من الخبراء لكل رمز (token)، مما يسمح بزيادة هائلة في عدد معلمات النموذج مع الحفاظ على تكلفة الاستدلال ثابتة لكل رمز.

📖

المصطلحات

خبراء الخلط الكثيفة (Dense MoE)

نسخة من بنية خبراء الخلط (MoE) حيث يساهم جميع الخبراء في المخرجات النهائية، مرجحين بواسطة شبكة التوجيه (gating network)، على عكس الإصدارات المتفرقة التي لا تنشط سوى مجموعة فرعية منهم.

📖

المصطلحات

موازنة الحمل (Load Balancing)

قضية حاسمة في تدريب نماذج خبراء الخلط (MoE)، تهدف إلى ضمان حصول كل خبير على كمية متساوية تقريبًا من بيانات التدريب لتجنب الاستخدام الناقص أو التخصص المفرط.

📖

المصطلحات

مزيج من المحولات (Mixture of Adapters)

تطبيق مبدأ خبراء الخلط (MoE) على المحولات، وهي وحدات بارامترية صغيرة تُدرج في نموذج أساسي مُدرب مسبقًا، حيث تقوم شبكة التوجيه باختيار ودمج المحولات الأكثر صلة.

📖

المصطلحات

الحوسبة الشرطية (Conditional Computation)

مبدأ أساسي لنماذج خبراء الخلط (MoE)، والذي بموجبه تكون الحسابات (تنشيط الخبراء) مشروطة بالمدخلات، مما يسمح بالاستخدام الديناميكي والفعال للموارد الحسابية.

📖

المصطلحات

ضوضاء التوجيه (Gating Noise)

تقنية تنظيم (regularization) تتضمن إضافة ضوضاء عشوائية (مثل ضوضاء غاوسية) إلى لوجيتس شبكة التوجيه قبل تطبيق دالة السوفت ماكس (softmax)، لتشجيع الاستكشاف وتحسين متانة التوجيه.

📖

المصطلحات

مزيج من السوفت ماكس (Mixture of Softmaxes)

تخصص لخبراء الخلط (MoE) حيث يكون الخبراء عبارة عن طبقات سوفت ماكس منفصلة، تُستخدم لنمذجة التوزيعات متعددة الأنماط المعقدة، خاصة في معالجة اللغة الطبيعية.

📖

المصطلحات

تكلفة التوجيه (Routing Cost)

العبء الحسابي الزائد المرتبط بتقييم شبكة التوجيه وتوجيه البيانات إلى الخبراء المختارين، وهو عامل رئيسي في تصميم نماذج خبراء الخلط (MoE) الفعالة.

📖

المصطلحات

مزيج من الرؤوس (Mixture of Heads)

تطبيق نموذج خبراء الخلط (MoE) على آلية الانتباه متعدد الرؤوس في المحولات (Transformers)، حيث تقوم شبكة التوجيه باختيار مجموعة فرعية من رؤوس الانتباه لتنشيطها لمدخل معين.

قاموس الذكاء الاصطناعي

شبكة التوجيه (Gating Network)

خبير

توجيه Top-k

آلية التوجيه

خسارة مساعدة

سعة زائدة

مزيج من الأعماق (Mixture-of-Depths)

MoE المتفرقة (Sparse MoE)

خبراء الخلط الكثيفة (Dense MoE)

موازنة الحمل (Load Balancing)

مزيج من المحولات (Mixture of Adapters)

الحوسبة الشرطية (Conditional Computation)

ضوضاء التوجيه (Gating Noise)

مزيج من السوفت ماكس (Mixture of Softmaxes)

تكلفة التوجيه (Routing Cost)

مزيج من الرؤوس (Mixture of Heads)

لم يتم العثور على نتائج