قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الضبط الدقيق الفعال للمعلمات (PEFT)
مجموعة من التقنيات التي تسمح بتكييف النماذج المدربة مسبقًا عن طريق تعديل مجموعة فرعية صغيرة فقط من المعلمات، مما يقلل التكاليف الحسابية.
لورا (التكييف منخفض الرتبة)
طريقة PEFT تضخم مصفوفات منخفضة الرتبة في طبقات Transformer، مما يسمح بالضبط الدقيق الفعال مع 0.1% فقط من المعلمات الأصلية.
المحولات
وحدات عصبية خفيفة يتم إدراجها بين طبقات Transformer، قابلة للتدريب بشكل مستقل لتكييف النموذج مع مهام جديدة دون تعديل الأوزان الأصلية.
الانتباه السريع
تنفيذ خوارزمي دقيق للانتباه محسّن لوحدات معالجة الرسوميات الحديثة، يزيل عمليات القراءة/الكتابة الذاكرة المتكررة لتسريع التدريب.
تقليم التوكن الديناميكي
تقنية تكيفية تزيل بشكل انتقائي التوكنات الأقل أهمية أثناء المرارة الأمامية لتقليل التعقيد الحسابي للانتباه.
محسن الصفر التكراري (ZeRO)
إطار عمل للتحسين يوزع حالات المحسن، التدرجات والمعلمات على عدة وحدات معالجة الرسوميات لإزالة التكرارات الذاكرة أثناء التدريب.
التوازي النموذجي
استراتيجية توزيع حيث يتم وضع مكونات مختلفة من النموذج على أجهزة حسابية مختلفة للتعامل مع نماذج تتجاوز ذاكرة وحدة معالجة الرسوميات الواحدة.
التوازي الخطي
شكل من أشكال التوازي النموذجي حيث يتم توزيع الطبقات على وحدات معالجة الرسوميات المختلفة ومعالجتها في خط أنابيب لتحسين استخدام الموارد.
التوازي الموتري
تقنية توازي تقوم بتقسيم موزنات الأوزان الفردية بين عدة وحدات معالجة رسوميات للسماح بتدريب طبقات أوسع من ذاكرة جهاز واحد.
تراكم التدرجات
طريقة تحاكي حجم دفعة أكبر من خلال تراكم التدرجات على عدة عمليات تمرير أمامية قبل تحديث أوزان النموذج.
انحلال معدل التعلم طبقة-ب-طبقة
استراتيجية تحسين تطبق معدلات تعلم مختلفة حسب عمق الطبقات، عادة تكون أعلى للطبقات العلوية.
التعلم المنهجي
مقاربة تدريب تقدم الأمثلة بترتيب تصاعدي في الصعوبة، مما يسرع التقارب ويحسن الأداء النهائي.
خليط الخبراء
بنية حيث يتم معالجة كل رمز بواسطة مجموعة فرعية متخصصة من الخبراء، مما يسمح بزيادة سعة النموذج بدون زيادة خطية في التكاليف.
الطبقات العكسية
طبقات محول مصممة للسماح بإعادة بناء التنشيطات من المخرجات، مما يلغي الحاجة لتخزين التنشيطات الوسيطة.
حقن ضوضاء التدرج
تقنية تنظيم تضيف ضوضاء غاوسية للتدرجات أثناء التدريب لتحسين التعميم وتجنب الحدود الدنيا المحلية غير المثلى.
تجزئة حالة المُحسِّن
طريقة توزيع ذاكرة تقسم حالات المُحسِّن على عدة وحدات معالجة رسوميات لتقليل البصمة الذاكرية بشكل كبير أثناء التدريب.