تحسين نوى الموتر - مسرد الذكاء الاصطناعي

📖

المصطلحات

عمليات FP16

عمليات حسابية بفاصلة عائمة بنصف دقة (16 بت) توفر ما يصل إلى 8 أضعاف الإنتاجية مقارنة بـ FP32 على نوى Tensor، مع تقليل كبير في عرض النطاق الترددي للذاكرة واستهلاك الطاقة.

📖

المصطلحات

TensorFloat-32 (TF32)

تنسيق رقمي هجين من NVIDIA يستخدم 8 بتات للأس (مثل FP32) و 10 بتات للمانتيسة (مثل FP16)، مما يوفر توازنًا مثاليًا بين النطاق الديناميكي والدقة لنوة Tensor من معمارية Ampere.

📖

المصطلحات

ضرب-تجميع مصفوفة Warp (WMMA)

واجهة برمجة تطبيقات CUDA تسمح لمجموعات Warp المكونة من 32 خيطًا (thread) بإجراء عمليات ضرب-تجميع المصفوفات بكفاءة مباشرة على نوى Tensor مع الوصول إلى السجلات المجزأة.

📖

المصطلحات

نواة CUDA لنوة Tensor

برامج GPU مُحسّنة خصيصًا لاستغلال تعليمات نوى Tensor، باستخدام بدائيات WMMA أو مكتبات عالية المستوى لتحقيق أقصى إنتاجية للمصفوفات.

📖

المصطلحات

تجزئة المصفوفات

تقنية تقسيم المصفوفات إلى أجزاء أصغر موزعة بين خيوط (threads) مجموعة Warp للتنفيذ المتوازي على وحدات نوى Tensor، مما يحسن استخدام موارد الحوسبة.

📖

المصطلحات

استخدام نوى Tensor

مقياس يقيس النسبة المئوية للدورات التي تقوم فيها نوى Tensor بإجراء حسابات مفيدة، وهو أمر بالغ الأهمية لتقييم كفاءة التحسينات وتحديد الاختناقات.

📖

المصطلحات

تكميم INT8 للاستدلال

تحويل أوزان وتنشيطات الشبكات العصبية إلى أعداد صحيحة 8 بت، مما يسمح بتسريع يصل إلى 32 ضعفًا على نوى Tensor مع تدهور متحكم فيه في الدقة.

📖

المصطلحات

مكتبة CublasLt لنوة Tensor

امتداد لمكتبة CUBLAS مُحسّن لنوة Tensor، يوفر إجراءات GEMM (ضرب المصفوفات العام) عالية الأداء مع دعم أصلي لتنسيقات الدقة المختلطة.

📖

المصطلحات

تقسيم الذاكرة المشتركة (Shared Memory Tiling)

استراتيجية لتنظيم البيانات في ذاكرة GPU المشتركة على شكل بلاطات مثالية للوصول إلى Tensor Cores، مما يقلل من تعارضات البنوك ويزيد من عرض النطاق الترددي.

📖

المصطلحات

جدولة المصفوفات على مستوى الـ Warp (Warp-level Matrix Scheduling)

جدولة عمليات المصفوفات على مستوى الـ warps لزيادة استخدام خطوط أنابيب Tensor Core إلى أقصى حد، مع الأخذ في الاعتبار أوقات الاستجابة (latencies) واعتمادات البيانات.

📖

المصطلحات

ضغط سجلات Tensor Core (Tensor Core Register Pressure)

قيود مرتبطة بالعدد المحدود للسجلات لكل SM، مما يؤثر على القدرة على موازاة عمليات Tensor Core ويتطلب توازنًا بين الإشغال والاستخدام الفعال للوحدات.

📖

المصطلحات

معايير التعلم العميق (Deep Learning Benchmarks)

مجموعات اختبار مثل MLPerf تقيّم أداء تحسينات Tensor Core على أعباء عمل حقيقية لتدريب واستدلال الشبكات العصبية.

📖

المصطلحات

الخلط التلقائي للدقة (Automatic Mixed Precision - AMP)

تقنية تلقائية لاختيار دقة التشغيل تحدد عمليات Tensor Core المؤهلة وتحافظ على نسخ FP32 للاستقرار الرقمي.

📖

المصطلحات

تجميع ذاكرة Tensor Core (Tensor Core Memory Coalescing)

تحسين الوصول إلى الذاكرة ليتوافق مع أنماط وصول Tensor Cores، وتجميع المعاملات في وصولات متجاورة لزيادة الإنتاجية القصوى.

📖

المصطلحات

دعم المصفوفات المتفرقة (Sparse Matrix Support)

قدرة Tensor Cores من معمارية Ampere على معالجة المصفوفات الهيكلية المتفرقة بكفاءة، مما يوفر تسريعًا يصل إلى 2x للشبكات العصبية ذات التفرق (sparsité).

قاموس الذكاء الاصطناعي

عمليات FP16

TensorFloat-32 (TF32)

ضرب-تجميع مصفوفة Warp (WMMA)

نواة CUDA لنوة Tensor

تجزئة المصفوفات

استخدام نوى Tensor

تكميم INT8 للاستدلال

مكتبة CublasLt لنوة Tensor

تقسيم الذاكرة المشتركة (Shared Memory Tiling)

جدولة المصفوفات على مستوى الـ Warp (Warp-level Matrix Scheduling)

ضغط سجلات Tensor Core (Tensor Core Register Pressure)

معايير التعلم العميق (Deep Learning Benchmarks)

الخلط التلقائي للدقة (Automatic Mixed Precision - AMP)

تجميع ذاكرة Tensor Core (Tensor Core Memory Coalescing)

دعم المصفوفات المتفرقة (Sparse Matrix Support)

لم يتم العثور على نتائج