قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التدريب المدرك للتحويل الكمي (QAT)
طريقة تحسين يتم فيها دمج محاكاة التحويل الكمي منخفض الدقة أثناء التدريب، مما يسمح للنموذج بتكييف أوزانه لتقليل فقدان الأداء الناتج عن التحويل الكمي.
تكييف الرتبة المنخفضة (LoRA)
طريقة تكييف فعالة تقوم بتجميد أوزان نموذج مدرب مسبقًا وتحقن مصفوفات صغيرة قابلة للتحلل ذات رتبة منخفضة، مما يقلل بشكل كبير من عدد المعلمات القابلة للتدريب للضبط الدقيق مع الحفاظ على الأداء.
تمثيل النقطة العائمة 8 بت (FP8)
تنسيق بيانات رقمي منخفض الدقة للغاية يستخدم 8 بت لتمثيل الأرقام العشرية، مما يسمح بتسريعات كبيرة على وحدات معالجة الرسوميات الحديثة مع الحفاظ على استقرار تدريب النماذج الكبيرة.
التحويل الكمي الصحيح 4 بت (INT4)
تقنية ضغط قصوى تمثل أوزان النموذج في 4 بت، تتطلب خوارزميات تحويل كمي متقدمة وغالبًا ما تتطلب إعادة تدريب جزئي لتعويض فقدان المعلومات الكبير.
تعويض انحياز التحويل الكمي (Q-Bias)
تقنية تعديل ما بعد التحويل الكمي تقوم بتحليل وتصحيح الانحيازات التي يتم إدخالها عن طريق تقليل الدقة بشكل منهجي، غالبًا عن طريق تعديل طبقات التسوية أو انحيازات الطبقات الخطية.
تحسين البحث الشبكي للتحويل الكمي
طريقة استكشاف منهجية لتكوينات التحويل الكمي المختلفة (حسب الطبقة، حسب المجموعة، مختلطة) لتحديد المخطط الأمثل الذي يوفر أفضل توازن بين حجم النموذج والسرعة والدقة لبنية معينة.
الاستدلال التخميني (Speculative Inference)
تقنية تسريع الاستدلال التوليدي حيث يقترح نموذج 'مسودة' صغير بسرعة عدة رموز (tokens)، والتي يتم التحقق منها لاحقًا بالتوازي بواسطة النموذج الهدف الكبير، مما يقلل العدد الإجمالي لخطوات الحساب المكلفة.
تحليل القيم المفردة المقطوعة (Truncated SVD)
تطبيق تحليل القيم المفردة (SVD) متبوعًا بقطع أصغر القيم المفردة لتقريب مصفوفة الأوزان بمجموع رتبة أقل، مما يقلل من المعلمات والحساب مع خطأ متحكم فيه.
التقمية بالكتل (Block-wise Quantization)
استراتيجية تقمية تقسم موترات الأوزان إلى كتل أصغر وتطبق تقمية مستقلة على كل كتلة، مما يحافظ بشكل أفضل على توزيع القيم ويقلل الخطأ الكلي مقارنة بالتقمية الشاملة.
الأوزان المتناثرة المهيكلة (Structured Sparsity)
شكل من أشكال التقليم يفرض أنماطًا من الانتظام (حسب الصف، العمود، أو الكتلة) على الأوزان المحذوفة، مما يسمح بالاستفادة الفعالة من تسريعات الأجهزة على وحدات المعالجة المركزية/الرسومية على عكس التناثر العشوائي غير المهيكل.