قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الحوسبة بدقة مختلطة
تقنية حسابية تستخدم في نفس الوقت عدة تنسيقات رقمية بدقة متغيرة (FP64، FP32، FP16، INT8) لتحسين التوازن بين أداء الذاكرة، إنتاجية الحساب ودقة النتائج في تطبيقات الذكاء الاصطناعي.
FP16 (النقطة العائمة بنصف الدقة)
تنسيق تمثيل رقمي على 16 بت يتضمن 1 بت للإشارة، 5 بتات للأُس و10 بتات للجزء العشري، يُستخدم لتسريع العمليات الحسابية وتقليل البصمة الذاكرة على حساب دقة مخفضة.
FP32 (النقطة العائمة بدقة مفردة)
تنسيق تمثيل رقمي قياسي على 32 بت مع 1 بت للإشارة، 8 بتات للأُس و23 بت للجزء العشري، يشكل المرجعية الدقيقة لتدريب معظم نماذج الذكاء الاصطناعي.
INT8 (عدد صحيح 8 بت)
تنسيق تكميم على 8 بتات يمثل أعداداً صحيحة موقعة، يُستخدم أساساً للاستدلال لتعظيم إنتاجية الحساب وتقليل استهلاك الطاقة لمُسرعات العتاد.
النوى الموترية
وحدات حساب متخصصة مدمجة في وحدات معالجة الرسومات الحديثة (NVIDIA) مصممة لتنفيذ عمليات الضرب-التراكم المصفوفي بدقة مختلطة (FP16/FP32) بطريقة متوازية للغاية.
توسيع الخسارة الديناميكي
نوع متكيف من توسيع الخسارة حيث يتم ضبط عامل القياس ديناميكياً أثناء التدريب، يزيد في حالة الاستقرار ويقل في حالة الفيض لتحسين التقارب.
الأوزان الرئيسية
نسخة من أوزان النموذج محفوظة في FP32 (أو FP64) أثناء التدريب بدقة مختلطة، تُستخدم كمرجع دقيق لتحديثات الأوزان بينما تتم العمليات الحسابية الأمامية/الخلفية في FP16.
الدقة المختلطة التلقائية (AMP)
ميزة في أطر عمل الذكاء الاصطناعي (PyTorch، TensorFlow) التي تختار تلقائياً العمليات التي سيتم تنفيذها في FP16 أو FP32، تدير تحويل الأنواع وتطبق توسيع الخسارة بطريقة شفافة.
وحدات معالجة المتجهات (VPU)
مسرعات أجهزة متخصصة محسنة للحسابات بدقة عددية صحيحة (INT8) ودقة منخفضة، مصممة للاستدلال الفعال لشبكات العصبية على الأجهزة الطرفية.
تسريع التخلخل
تقنية مجمعة مع الدقة المختلطة تستغل الأصفار في الموترات لتخطي الحسابات غير الضرورية، مما يقلل عرض نطاق الذاكرة ويزيد من معدل نقل عمليات المصفوفات الفعال.
تحليل الاستقرار العددي
تقييم منهجي لتأثير تخفيض الدقة على التقارب والدقة النهائية للنموذج، مع تحديد الطبقات الحساسة التي تحتاج إلى البقاء بدقة FP32 في استراتيجية الدقة المختلطة.
FP8 (النقطة العائمة 8 بت)
تنسيق ناشئ للتمثيل بـ 8 بت مع متغيرات مختلفة (E4M3, E5M2) محسنة للتدريب والاستدلال، يوفر توازنًا شديدًا بين معدل النقل والدقة للنماذج الكبيرة جدًا.
تراكم التدرج في الدقة المختلطة
تقنية حيث يتم تجميع التدرجات المحسوبة بدقة FP16 في مخزن مؤقت بدقة FP32 قبل تحديث الأوزان، مما يمنع فقدان الدقة أثناء التجميع على عدة دفعات صغيرة.
التقليم الواعي بالدقة
طريقة تقليم الشبكة التي تأخذ في الاعتبار حساسية كل طبقة لتخفيض الدقة، مع تطبيق تقليم أكثر عدوانية على الطبقات القوية في الدقة المنخفضة لتعظيم التسريع.