مزيج الخبراء
توجيه Top-k
استراتيجية توجيه حيث يتم تنشيط خبراء k فقط الذين لديهم أعلى أوزان تنشيط لمدخل معين، مما يقلل من التكلفة الحسابية مع الحفاظ على أداء النموذج.
← رجوعاستراتيجية توجيه حيث يتم تنشيط خبراء k فقط الذين لديهم أعلى أوزان تنشيط لمدخل معين، مما يقلل من التكلفة الحسابية مع الحفاظ على أداء النموذج.
← رجوع