قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
BLEU (تقييم ثنائي اللغة تحت الدراسة)
مقياس آلي لتقييم جودة الترجمات الآلية عن طريق مقارنة دقة الـ n-gram للنص المُولّد بالنسبة إلى مرجع بشري واحد أو أكثر. يقيس هذا المقياس تداخل مقاطع النص بين مخرجات النموذج والمرجع.
ROUGE (دراسة موجهة للاستدعاء لتقييم التلخيص)
مجموعة من المقاييس تُستخدم بشكل أساسي لتقييم جودة الملخصات الآلية، مع التركيز على استدعاء (recall) الـ n-gram مقارنة بالملخصات المرجعية. ROUGE-N و ROUGE-L و ROUGE-S هي المتغيرات الأكثر شيوعًا.
درجة الاتساق
مؤشر نوعي يقيس الاتساق الدلالي والمنطقي لنص مُولّد على مدى طويل، ويقيّم ما إذا كانت الجمل والفقرات تترابط بشكل منطقي. غالبًا ما يتم حسابه عبر نماذج تضمين الجمل أو مصنفات مدربة خصيصًا.
التقييم البشري (Human Evaluation)
منهجية مرجعية حيث يقوم المدوّنون البشريون بتقييم جودة مخرجات نموذج اللغة الكبير (LLM) وفقًا لمعايير محددة مسبقًا مثل الصلة، والسلاسة، والشمولية. توفر هذه المنهجية مقياسًا للحقيقة الواقعية ولكنها مكلفة ويصعب توسيع نطاقها.
السمية
مقياس يقيّم احتمالية أن يُولّد النموذج محتوى مسيئًا، أو كارهًا، أو تمييزيًا، أو ضارًا. تُقاس عادةً بواسطة مصنفات متخصصة مدربة على مجموعات نصوص مُعلّمة لسميتها.
الهلوسة
ظاهرة حيث يُولّد نموذج اللغة الكبير (LLM) معلومات غير صحيحة واقعيًا، أو لا أساس لها، أو مخترعة، ويقدمها كحقائق. يتضمن تقييم الهلوسة التحقق من دقة المحتوى المُولّد مقارنة بمصدر حقيقة معروف.
التحيز (Bias)
مقياس لميل النموذج إلى إنتاج نتائج ضارة أو نمطية بشكل منهجي تجاه مجموعات ديموغرافية معينة. يحلل تقييم التحيز المخرجات للكشف عن التحيزات المتعلقة بالجنس، أو العرق، أو غيرها من السمات الحساسة.
مقياس الدقة/الإخلاص (Faithfulness)
مؤشر يقيّم مدى بقاء المحتوى المُولّد بواسطة نموذج اللغة الكبير (LLM)، خاصة في أنظمة السؤال-الجواب أو التلخيص، دقيقًا ومتسقًا مع السياق أو المستندات المصدر المقدمة. تشير الدقة المنخفضة إلى انحرافات أو اختراعات.
معيار MMLU (فهم اللغة متعدد المهام الضخم)
معيار شامل مصمم لقياس معرفة وقدرات فهم نموذج اللغة الكبير (LLM) عبر مجموعة واسعة من 57 موضوعًا، تتراوح من الرياضيات الأساسية إلى القانون الأمريكي والتاريخ. يقيم قدرة النموذج على الإجابة على أسئلة الاختيار من متعدد.
درجة الاستجابة المفيدة (Helpfulness Score)
مقياس نوعي يقيم مدى فائدة الاستجابة التي يولدها نموذج اللغة الكبير (LLM)، ومدى صلتها، وحلها لاستعلام المستخدم أو مشكلته. غالبًا ما يتم الحصول على هذه الدرجة من خلال التقييم البشري أو نماذج المكافأة (Reward Models).
التقييم بالتعلم من أمثلة قليلة (Few-Shot Evaluation)
تقنية تقييم حيث يتم تقديم عدد قليل جدًا من الأمثلة (عادة من 1 إلى 5) للمهمة المستهدفة إلى النموذج ضمن الموجه، لتوجيه فهمه وأدائه. تقيم قدرة النموذج على التكيف السريع.
المحاذاة (Alignment)
عملية ومقياس يهدفان إلى ضمان أن سلوك نموذج اللغة الكبير (LLM) يتوافق مع النوايا البشرية والقيم الأخلاقية والتعليمات المعطاة. يتحقق تقييم المحاذاة مما إذا كان النموذج مفيدًا وغير ضار وصادقًا (إطار عمل HHH).
مقياس التنوع (Diversity Metric)
مؤشر يقيس تنوع ومدى المفردات أو الموضوعات في نص تم إنشاؤه بواسطة نموذج اللغة الكبير (LLM)، وبالتالي تجنب التكرار والاستجابات العامة. يمكن حسابه بنسبة الأنواع الفريدة إلى العدد الإجمالي للرموز (TTR) أو بالتشابه الدلالي بين الجمل.
درجة الإحالة المرجعية المتقاطعة (Cross-Reference Score)
مقياس يستخدم لتقييم اتساق نموذج اللغة الكبير (LLM) عن طريق إنشاء استجابات متعددة لنفس السؤال وقياس تشابهها الدلالي أو الواقعي. تشير الدرجة العالية إلى موثوقية كبيرة واحتمالية منخفضة للتناقض.
مقياس TruthfulQA
معيار متخصص مصمم لقياس ميل نموذج اللغة الكبير (LLM) إلى تقليد الأكاذيب الشائعة الموجودة في نصوص التدريب، وتقييم قدرته على توليد إجابات صحيحة واقعيًا. يركز على الحقيقة بدلاً من مجرد الفائدة أو الاتساق.
مقياس المتانة (Robustness Metric)
تقييم استقرار أداء نموذج اللغة الكبير (LLM) في مواجهة اختلافات طفيفة في الإدخال (على سبيل المثال، الأخطاء الإملائية، إعادة الصياغة، أو الضوضاء). يشير مقياس المتانة العالي إلى أن جودة الإخراج لا تتدهور بشكل كبير مع الاضطرابات.
درجة متابعة التعليمات (Instruction Following Score)
مقياس يقيم قدرة نموذج اللغة الكبير (LLM) على فهم وتنفيذ بدقة التعليمات المعقدة والمتعددة الخطوات المقدمة في موجه. هذه الدرجة حاسمة لتطبيقات الوكيل ومهام التوليد الشرطي.