قوانين القياس - مسرد الذكاء الاصطناعي

📖

المصطلحات

قانون التدرج

مبدأ رياضي يحدد علاقة تنبؤية بين أداء نموذج اللغة وثلاثة عوامل رئيسية: حجم النموذج (عدد المعاملات)، وحجم بيانات التدريب، والقوة الحاسوبية المستخدمة.

📖

المصطلحات

قانون الشينشيلا

قاعدة تجريبية محددة ناتجة عن تجارب DeepMind، تنص على أنه لتحقيق ميزانية حاسوبية مثالية، يجب توسيع حجم النموذج وحجم بيانات التدريب بشكل متماثل، على عكس الافتراضات السابقة.

📖

المصطلحات

القوة الحاسوبية (Compute)

الموارد الحاسوبية المقاسة بوحدات FLOPS (عمليات النقطة العائمة في الثانية)، والتي تشكل الركيزة الثالثة لقوانين التدرج وتحدد مدة وجدوى تدريب نماذج اللغة الكبيرة.

📖

المصطلحات

التدرج المتماثل

استراتيجية توسيع حيث يزداد حجم النموذج (N) وحجم البيانات (D) بشكل متناسب وفقًا لعلاقة N ≈ D، مما يحسن الأداء لميزانية حاسوبية معينة.

📖

المصطلحات

خسارة الاختبار (Test Loss)

مقياس أداء، غالبًا ما يكون خسارة الانتروبيا المتقاطعة (cross-entropy loss)، يستخدم كمتغير تابع في قوانين التدرج لتحديد كفاءة النموذج على بيانات غير مرئية.

📖

المصطلحات

أس التدرج

معامل في معادلة قانون القوة (على سبيل المثال، L(N) ∝ N^(-α)) الذي يحدد معدل انخفاض خسارة الاختبار مع زيادة متغير مثل حجم النموذج أو البيانات.

📖

المصطلحات

نقل التدرج (Scaling Transfer)

ظاهرة حيث يمكن استقراء قوانين التدرج الملاحظة على نماذج أصغر ومجموعات بيانات أكثر تقييدًا للتنبؤ بدقة بأداء نماذج أكبر بكثير.

📖

المصطلحات

تحسين ميزانية الحوسبة

عملية تخصيص الموارد بين حجم النموذج والبيانات ووقت التدريب لزيادة الأداء النهائي إلى أقصى حد ضمن قيود ميزانية الحوسبة الإجمالية، مسترشدة بقوانين التدرج.

📖

المصطلحات

نظام التحجيم دون المستوى الأمثل

حالة يتم فيها تدريب نموذج مع عدم توازن بين حجمه وحجم البيانات، على سبيل المثال نموذج كبير على بيانات قليلة، مما يؤدي إلى أداء أقل مما تتنبأ به قوانين التحجيم المثلى.

📖

المصطلحات

قانون القوة (Power Law)

علاقة رياضية على شكل Y = aX^b تكمن وراء قوانين التحجيم في الذكاء الاصطناعي، وتصف كيف يتغير مقياس الأداء (Y) بشكل منهجي مع مورد إدخال (X) مثل عدد المعلمات.

📖

المصطلحات

عدد المعلمات (Model Size)

متغير أساسي في قوانين التحجيم، يمثل العدد الإجمالي للأوزان القابلة للتدريب في شبكة عصبية، وهو مرتبط مباشرة بقدرة النموذج على الحفظ والتعميم.

📖

المصطلحات

حجم بيانات التدريب (Dataset Size)

كمية الرموز المميزة (tokens) أو الكلمات الفريدة المستخدمة لتدريب نموذج، والتي يعد زيادتها ضرورية لتجنب الإفراط في التخصيص (overfitting) ولتحقيق الإمكانات الكاملة للأداء التي تتنبأ بها قوانين التحجيم.

📖

المصطلحات

الأداء التنبؤي (Predictive Performance)

قدرة النموذج على إجراء تنبؤات دقيقة على بيانات جديدة، يتم قياسها بواسطة خسارة الاختبار، وهي المتغير المستهدف الذي تسعى قوانين التحجيم إلى تحسينه.

📖

المصطلحات

فرضية كابلان (Kaplan's Hypothesis)

نظرية تحجيم سابقة لقانون تشينشيلا، والتي افترضت أن الأداء يتحسن بأكثر الطرق فعالية عن طريق زيادة حجم النموذج مع الحفاظ على عدد رموز التدريب ثابتًا نسبيًا.

📖

المصطلحات

حد باريتو في التحجيم (Pareto Frontier in Scaling)

مجموعة التخصيصات المثلى للموارد (حجم النموذج، البيانات، الحساب) التي يستحيل عندها تحسين الأداء في بُعد واحد دون تدهور الأداء في بُعد آخر، مما يوضح المفاضلات في التحجيم.

📖

المصطلحات

تقارب الخسارة (Loss Convergence)

ميل خسارة الاختبار إلى الانخفاض والاستقرار مع زيادة الموارد (النموذج، البيانات، الحساب)، باتباع مسار يمكن التنبؤ به تحدده قوانين التحجيم.

📖

المصطلحات

تحجيم البيانات (Data Scaling)

محور قانون تشينشيلا الذي يدرس كيف تؤثر زيادة حجم وتنوع بيانات التدريب على أداء النموذج، بغض النظر عن حجمه.

📖

المصطلحات

تحجيم النموذج (Model Scaling)

عملية زيادة عدد معلمات نموذج اللغة، والتي، وفقًا لقوانين التحجيم، يجب أن تكون مصحوبة بزيادة متناسبة في البيانات لتحقيق أداء أمثل.

قاموس الذكاء الاصطناعي

قانون التدرج

قانون الشينشيلا

القوة الحاسوبية (Compute)

التدرج المتماثل

خسارة الاختبار (Test Loss)

أس التدرج

نقل التدرج (Scaling Transfer)

تحسين ميزانية الحوسبة

نظام التحجيم دون المستوى الأمثل

قانون القوة (Power Law)

عدد المعلمات (Model Size)

حجم بيانات التدريب (Dataset Size)

الأداء التنبؤي (Predictive Performance)

فرضية كابلان (Kaplan's Hypothesis)

حد باريتو في التحجيم (Pareto Frontier in Scaling)

تقارب الخسارة (Loss Convergence)

تحجيم البيانات (Data Scaling)

تحجيم النموذج (Model Scaling)

لم يتم العثور على نتائج