قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
عمليات FP16
عمليات حسابية بفاصلة عائمة بنصف دقة (16 بت) توفر ما يصل إلى 8 أضعاف الإنتاجية مقارنة بـ FP32 على نوى Tensor، مع تقليل كبير في عرض النطاق الترددي للذاكرة واستهلاك الطاقة.
TensorFloat-32 (TF32)
تنسيق رقمي هجين من NVIDIA يستخدم 8 بتات للأس (مثل FP32) و 10 بتات للمانتيسة (مثل FP16)، مما يوفر توازنًا مثاليًا بين النطاق الديناميكي والدقة لنوة Tensor من معمارية Ampere.
ضرب-تجميع مصفوفة Warp (WMMA)
واجهة برمجة تطبيقات CUDA تسمح لمجموعات Warp المكونة من 32 خيطًا (thread) بإجراء عمليات ضرب-تجميع المصفوفات بكفاءة مباشرة على نوى Tensor مع الوصول إلى السجلات المجزأة.
نواة CUDA لنوة Tensor
برامج GPU مُحسّنة خصيصًا لاستغلال تعليمات نوى Tensor، باستخدام بدائيات WMMA أو مكتبات عالية المستوى لتحقيق أقصى إنتاجية للمصفوفات.
تجزئة المصفوفات
تقنية تقسيم المصفوفات إلى أجزاء أصغر موزعة بين خيوط (threads) مجموعة Warp للتنفيذ المتوازي على وحدات نوى Tensor، مما يحسن استخدام موارد الحوسبة.
استخدام نوى Tensor
مقياس يقيس النسبة المئوية للدورات التي تقوم فيها نوى Tensor بإجراء حسابات مفيدة، وهو أمر بالغ الأهمية لتقييم كفاءة التحسينات وتحديد الاختناقات.
تكميم INT8 للاستدلال
تحويل أوزان وتنشيطات الشبكات العصبية إلى أعداد صحيحة 8 بت، مما يسمح بتسريع يصل إلى 32 ضعفًا على نوى Tensor مع تدهور متحكم فيه في الدقة.
مكتبة CublasLt لنوة Tensor
امتداد لمكتبة CUBLAS مُحسّن لنوة Tensor، يوفر إجراءات GEMM (ضرب المصفوفات العام) عالية الأداء مع دعم أصلي لتنسيقات الدقة المختلطة.
تقسيم الذاكرة المشتركة (Shared Memory Tiling)
استراتيجية لتنظيم البيانات في ذاكرة GPU المشتركة على شكل بلاطات مثالية للوصول إلى Tensor Cores، مما يقلل من تعارضات البنوك ويزيد من عرض النطاق الترددي.
جدولة المصفوفات على مستوى الـ Warp (Warp-level Matrix Scheduling)
جدولة عمليات المصفوفات على مستوى الـ warps لزيادة استخدام خطوط أنابيب Tensor Core إلى أقصى حد، مع الأخذ في الاعتبار أوقات الاستجابة (latencies) واعتمادات البيانات.
ضغط سجلات Tensor Core (Tensor Core Register Pressure)
قيود مرتبطة بالعدد المحدود للسجلات لكل SM، مما يؤثر على القدرة على موازاة عمليات Tensor Core ويتطلب توازنًا بين الإشغال والاستخدام الفعال للوحدات.
معايير التعلم العميق (Deep Learning Benchmarks)
مجموعات اختبار مثل MLPerf تقيّم أداء تحسينات Tensor Core على أعباء عمل حقيقية لتدريب واستدلال الشبكات العصبية.
الخلط التلقائي للدقة (Automatic Mixed Precision - AMP)
تقنية تلقائية لاختيار دقة التشغيل تحدد عمليات Tensor Core المؤهلة وتحافظ على نسخ FP32 للاستقرار الرقمي.
تجميع ذاكرة Tensor Core (Tensor Core Memory Coalescing)
تحسين الوصول إلى الذاكرة ليتوافق مع أنماط وصول Tensor Cores، وتجميع المعاملات في وصولات متجاورة لزيادة الإنتاجية القصوى.
دعم المصفوفات المتفرقة (Sparse Matrix Support)
قدرة Tensor Cores من معمارية Ampere على معالجة المصفوفات الهيكلية المتفرقة بكفاءة، مما يوفر تسريعًا يصل إلى 2x للشبكات العصبية ذات التفرق (sparsité).