المعايير والتقييم
GSM8K
مجموعة بيانات تحتوي على 8.5 آلاف مشكلة رياضية نصية على مستوى المدرسة تتطلب استدلالًا متعدد الخطوات، وتقيم قدرة نماذج اللغات الكبيرة (LLMs) على فهم المشاكل باللغة الطبيعية وتوليد حلول رياضية متسقة.
← رجوع