المعايير والتقييم
HumanEval
مجموعة من 164 مشكلة برمجة بايثون أنشأتها OpenAI لتقييم قدرة نماذج اللغة الكبيرة (LLMs) على توليد كود وظيفي، وقياس الفهم النحوي والخوارزمي من خلال اختبارات الوحدة الآلية.
← رجوع