قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
تفرع الخيوط (Thread Divergence)
ظاهرة حيث تسلك خيوط (threads) من نفس الـ warp مسارات تنفيذ مختلفة، مما يتسبب في تسلسل الفروع ويقلل بشكل كبير من أداء التوازي على وحدات معالجة الرسوميات (GPU).
تعارضات بنوك الذاكرة المشتركة (Shared Memory Bank Conflicts)
نزاع يحدث عندما تحاول عدة خيوط (threads) من نفس الـ warp الوصول في وقت واحد إلى نفس بنك الذاكرة المشتركة (shared memory)، مما يؤدي إلى تسلسل عمليات الوصول.
جدولة الـ Warp (Warp Scheduling)
آلية جدولة وحدة معالجة الرسوميات (GPU) التي تحسن ترتيب الـ warps لزيادة استخدام وحدات الحساب وإخفاء زمن الوصول إلى الذاكرة.
فيضان المسجلات (Register Spilling)
ظاهرة حيث يضطر المترجم إلى نقل البيانات من المسجلات إلى الذاكرة المحلية (البطيئة) عندما تكون المسجلات غير كافية، مما يؤدي إلى تدهور كبير في الأداء.
إنتاجية التعليمات (Instruction Throughput)
مقياس لعدد التعليمات التي يمكن تنفيذها في كل دورة ساعة، يتم تحسينه من خلال تفضيل العمليات الحسابية الأصلية وتجنب التعليمات المعقدة.
حلقة تباعد الشبكة (Grid Stride Loop)
نمط حلقة حيث يعالج كل خيط (thread) عدة عناصر متباعدة بحجم الشبكة الكلي (grid)، مما يسمح بمعالجة مجموعات بيانات أكبر من شبكة الخيوط.
فك الحلقات (Loop Unrolling)
تقنية تحسين تزيل تكرارات الحلقة عن طريق تكرار جسم الحلقة، مما يقلل من الحمل الزائد للتحكم في الحلقة ويزيد من التوازي على مستوى التعليمات.
إخفاء زمن وصول الذاكرة (Memory Latency Hiding)
استراتيجية تتضمن إطلاق عدد كافٍ من الـ warps بحيث يمكن لوحدة معالجة الرسوميات (GPU) التبديل إلى الـ warps الجاهزة بينما تنتظر الـ warps الأخرى عمليات الوصول إلى الذاكرة.
عمليات الذاكرة المتجهة
تعليمات تنقل عدة بيانات في وقت واحد (float2, float4) بين الذاكرة العامة والسجلات، مما يحسن عرض النطاق الترددي الفعال.
المجموعات التعاونية
واجهة برمجة تطبيقات CUDA تسمح بمزامنة مرنة وجماعية بين الخيوط (threads) تتجاوز حدود الكتل التقليدية، مما يحسن أنماط الاتصال المعقدة.
التخزين المؤقت لذاكرة النسيج
استخدام ذاكرة النسيج مع ذاكرتها المؤقتة المحسّنة للوصول المكاني، وهي فعالة بشكل خاص لأنماط الوصول ذات المحلية ثنائية الأبعاد.
تحسين العمليات الذرية
تقنيات لتقليل التنافس على العمليات الذرية، خاصة باستخدام الذاكرة المشتركة للتجميع المحلي قبل التحديث العام.
التكلفة الإضافية لإطلاق النواة
التكلفة الزمنية المرتبطة ببدء نواة وحدة معالجة الرسوميات (GPU)، يتم تقليلها بدمج عدة نوى صغيرة في نواة واحدة أكبر أو باستخدام التوازي الديناميكي.
توازن توزيع العمل
تحسين توزيع العمل بين الخيوط (threads) لتجنب عدم توازن الحمل حيث تنتهي بعض الخيوط في وقت أبكر بكثير من غيرها.
استراتيجية الجلب المسبق
تقنية استباقية لتحميل البيانات في الذاكرة المشتركة قبل استخدامها، مما يخفي زمن الوصول إلى الذاكرة العامة.