قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
قانون التدرج
مبدأ رياضي يحدد علاقة تنبؤية بين أداء نموذج اللغة وثلاثة عوامل رئيسية: حجم النموذج (عدد المعاملات)، وحجم بيانات التدريب، والقوة الحاسوبية المستخدمة.
قانون الشينشيلا
قاعدة تجريبية محددة ناتجة عن تجارب DeepMind، تنص على أنه لتحقيق ميزانية حاسوبية مثالية، يجب توسيع حجم النموذج وحجم بيانات التدريب بشكل متماثل، على عكس الافتراضات السابقة.
القوة الحاسوبية (Compute)
الموارد الحاسوبية المقاسة بوحدات FLOPS (عمليات النقطة العائمة في الثانية)، والتي تشكل الركيزة الثالثة لقوانين التدرج وتحدد مدة وجدوى تدريب نماذج اللغة الكبيرة.
التدرج المتماثل
استراتيجية توسيع حيث يزداد حجم النموذج (N) وحجم البيانات (D) بشكل متناسب وفقًا لعلاقة N ≈ D، مما يحسن الأداء لميزانية حاسوبية معينة.
خسارة الاختبار (Test Loss)
مقياس أداء، غالبًا ما يكون خسارة الانتروبيا المتقاطعة (cross-entropy loss)، يستخدم كمتغير تابع في قوانين التدرج لتحديد كفاءة النموذج على بيانات غير مرئية.
أس التدرج
معامل في معادلة قانون القوة (على سبيل المثال، L(N) ∝ N^(-α)) الذي يحدد معدل انخفاض خسارة الاختبار مع زيادة متغير مثل حجم النموذج أو البيانات.
نقل التدرج (Scaling Transfer)
ظاهرة حيث يمكن استقراء قوانين التدرج الملاحظة على نماذج أصغر ومجموعات بيانات أكثر تقييدًا للتنبؤ بدقة بأداء نماذج أكبر بكثير.
تحسين ميزانية الحوسبة
عملية تخصيص الموارد بين حجم النموذج والبيانات ووقت التدريب لزيادة الأداء النهائي إلى أقصى حد ضمن قيود ميزانية الحوسبة الإجمالية، مسترشدة بقوانين التدرج.
نظام التحجيم دون المستوى الأمثل
حالة يتم فيها تدريب نموذج مع عدم توازن بين حجمه وحجم البيانات، على سبيل المثال نموذج كبير على بيانات قليلة، مما يؤدي إلى أداء أقل مما تتنبأ به قوانين التحجيم المثلى.
قانون القوة (Power Law)
علاقة رياضية على شكل Y = aX^b تكمن وراء قوانين التحجيم في الذكاء الاصطناعي، وتصف كيف يتغير مقياس الأداء (Y) بشكل منهجي مع مورد إدخال (X) مثل عدد المعلمات.
عدد المعلمات (Model Size)
متغير أساسي في قوانين التحجيم، يمثل العدد الإجمالي للأوزان القابلة للتدريب في شبكة عصبية، وهو مرتبط مباشرة بقدرة النموذج على الحفظ والتعميم.
حجم بيانات التدريب (Dataset Size)
كمية الرموز المميزة (tokens) أو الكلمات الفريدة المستخدمة لتدريب نموذج، والتي يعد زيادتها ضرورية لتجنب الإفراط في التخصيص (overfitting) ولتحقيق الإمكانات الكاملة للأداء التي تتنبأ بها قوانين التحجيم.
الأداء التنبؤي (Predictive Performance)
قدرة النموذج على إجراء تنبؤات دقيقة على بيانات جديدة، يتم قياسها بواسطة خسارة الاختبار، وهي المتغير المستهدف الذي تسعى قوانين التحجيم إلى تحسينه.
فرضية كابلان (Kaplan's Hypothesis)
نظرية تحجيم سابقة لقانون تشينشيلا، والتي افترضت أن الأداء يتحسن بأكثر الطرق فعالية عن طريق زيادة حجم النموذج مع الحفاظ على عدد رموز التدريب ثابتًا نسبيًا.
حد باريتو في التحجيم (Pareto Frontier in Scaling)
مجموعة التخصيصات المثلى للموارد (حجم النموذج، البيانات، الحساب) التي يستحيل عندها تحسين الأداء في بُعد واحد دون تدهور الأداء في بُعد آخر، مما يوضح المفاضلات في التحجيم.
تقارب الخسارة (Loss Convergence)
ميل خسارة الاختبار إلى الانخفاض والاستقرار مع زيادة الموارد (النموذج، البيانات، الحساب)، باتباع مسار يمكن التنبؤ به تحدده قوانين التحجيم.
تحجيم البيانات (Data Scaling)
محور قانون تشينشيلا الذي يدرس كيف تؤثر زيادة حجم وتنوع بيانات التدريب على أداء النموذج، بغض النظر عن حجمه.
تحجيم النموذج (Model Scaling)
عملية زيادة عدد معلمات نموذج اللغة، والتي، وفقًا لقوانين التحجيم، يجب أن تكون مصحوبة بزيادة متناسبة في البيانات لتحقيق أداء أمثل.