التقييم والمقاييس - مسرد الذكاء الاصطناعي

📖

المصطلحات

BLEU (تقييم ثنائي اللغة تحت الدراسة)

مقياس آلي لتقييم جودة الترجمات الآلية عن طريق مقارنة دقة الـ n-gram للنص المُولّد بالنسبة إلى مرجع بشري واحد أو أكثر. يقيس هذا المقياس تداخل مقاطع النص بين مخرجات النموذج والمرجع.

📖

المصطلحات

ROUGE (دراسة موجهة للاستدعاء لتقييم التلخيص)

مجموعة من المقاييس تُستخدم بشكل أساسي لتقييم جودة الملخصات الآلية، مع التركيز على استدعاء (recall) الـ n-gram مقارنة بالملخصات المرجعية. ROUGE-N و ROUGE-L و ROUGE-S هي المتغيرات الأكثر شيوعًا.

📖

المصطلحات

درجة الاتساق

مؤشر نوعي يقيس الاتساق الدلالي والمنطقي لنص مُولّد على مدى طويل، ويقيّم ما إذا كانت الجمل والفقرات تترابط بشكل منطقي. غالبًا ما يتم حسابه عبر نماذج تضمين الجمل أو مصنفات مدربة خصيصًا.

📖

المصطلحات

التقييم البشري (Human Evaluation)

منهجية مرجعية حيث يقوم المدوّنون البشريون بتقييم جودة مخرجات نموذج اللغة الكبير (LLM) وفقًا لمعايير محددة مسبقًا مثل الصلة، والسلاسة، والشمولية. توفر هذه المنهجية مقياسًا للحقيقة الواقعية ولكنها مكلفة ويصعب توسيع نطاقها.

📖

المصطلحات

السمية

مقياس يقيّم احتمالية أن يُولّد النموذج محتوى مسيئًا، أو كارهًا، أو تمييزيًا، أو ضارًا. تُقاس عادةً بواسطة مصنفات متخصصة مدربة على مجموعات نصوص مُعلّمة لسميتها.

📖

المصطلحات

الهلوسة

ظاهرة حيث يُولّد نموذج اللغة الكبير (LLM) معلومات غير صحيحة واقعيًا، أو لا أساس لها، أو مخترعة، ويقدمها كحقائق. يتضمن تقييم الهلوسة التحقق من دقة المحتوى المُولّد مقارنة بمصدر حقيقة معروف.

📖

المصطلحات

التحيز (Bias)

مقياس لميل النموذج إلى إنتاج نتائج ضارة أو نمطية بشكل منهجي تجاه مجموعات ديموغرافية معينة. يحلل تقييم التحيز المخرجات للكشف عن التحيزات المتعلقة بالجنس، أو العرق، أو غيرها من السمات الحساسة.

📖

المصطلحات

مقياس الدقة/الإخلاص (Faithfulness)

مؤشر يقيّم مدى بقاء المحتوى المُولّد بواسطة نموذج اللغة الكبير (LLM)، خاصة في أنظمة السؤال-الجواب أو التلخيص، دقيقًا ومتسقًا مع السياق أو المستندات المصدر المقدمة. تشير الدقة المنخفضة إلى انحرافات أو اختراعات.

📖

المصطلحات

معيار MMLU (فهم اللغة متعدد المهام الضخم)

معيار شامل مصمم لقياس معرفة وقدرات فهم نموذج اللغة الكبير (LLM) عبر مجموعة واسعة من 57 موضوعًا، تتراوح من الرياضيات الأساسية إلى القانون الأمريكي والتاريخ. يقيم قدرة النموذج على الإجابة على أسئلة الاختيار من متعدد.

📖

المصطلحات

درجة الاستجابة المفيدة (Helpfulness Score)

مقياس نوعي يقيم مدى فائدة الاستجابة التي يولدها نموذج اللغة الكبير (LLM)، ومدى صلتها، وحلها لاستعلام المستخدم أو مشكلته. غالبًا ما يتم الحصول على هذه الدرجة من خلال التقييم البشري أو نماذج المكافأة (Reward Models).

📖

المصطلحات

التقييم بالتعلم من أمثلة قليلة (Few-Shot Evaluation)

تقنية تقييم حيث يتم تقديم عدد قليل جدًا من الأمثلة (عادة من 1 إلى 5) للمهمة المستهدفة إلى النموذج ضمن الموجه، لتوجيه فهمه وأدائه. تقيم قدرة النموذج على التكيف السريع.

📖

المصطلحات

المحاذاة (Alignment)

عملية ومقياس يهدفان إلى ضمان أن سلوك نموذج اللغة الكبير (LLM) يتوافق مع النوايا البشرية والقيم الأخلاقية والتعليمات المعطاة. يتحقق تقييم المحاذاة مما إذا كان النموذج مفيدًا وغير ضار وصادقًا (إطار عمل HHH).

📖

المصطلحات

مقياس التنوع (Diversity Metric)

مؤشر يقيس تنوع ومدى المفردات أو الموضوعات في نص تم إنشاؤه بواسطة نموذج اللغة الكبير (LLM)، وبالتالي تجنب التكرار والاستجابات العامة. يمكن حسابه بنسبة الأنواع الفريدة إلى العدد الإجمالي للرموز (TTR) أو بالتشابه الدلالي بين الجمل.

📖

المصطلحات

درجة الإحالة المرجعية المتقاطعة (Cross-Reference Score)

مقياس يستخدم لتقييم اتساق نموذج اللغة الكبير (LLM) عن طريق إنشاء استجابات متعددة لنفس السؤال وقياس تشابهها الدلالي أو الواقعي. تشير الدرجة العالية إلى موثوقية كبيرة واحتمالية منخفضة للتناقض.

📖

المصطلحات

مقياس TruthfulQA

معيار متخصص مصمم لقياس ميل نموذج اللغة الكبير (LLM) إلى تقليد الأكاذيب الشائعة الموجودة في نصوص التدريب، وتقييم قدرته على توليد إجابات صحيحة واقعيًا. يركز على الحقيقة بدلاً من مجرد الفائدة أو الاتساق.

📖

المصطلحات

مقياس المتانة (Robustness Metric)

تقييم استقرار أداء نموذج اللغة الكبير (LLM) في مواجهة اختلافات طفيفة في الإدخال (على سبيل المثال، الأخطاء الإملائية، إعادة الصياغة، أو الضوضاء). يشير مقياس المتانة العالي إلى أن جودة الإخراج لا تتدهور بشكل كبير مع الاضطرابات.

📖

المصطلحات

درجة متابعة التعليمات (Instruction Following Score)

مقياس يقيم قدرة نموذج اللغة الكبير (LLM) على فهم وتنفيذ بدقة التعليمات المعقدة والمتعددة الخطوات المقدمة في موجه. هذه الدرجة حاسمة لتطبيقات الوكيل ومهام التوليد الشرطي.

قاموس الذكاء الاصطناعي

BLEU (تقييم ثنائي اللغة تحت الدراسة)

ROUGE (دراسة موجهة للاستدعاء لتقييم التلخيص)

درجة الاتساق

التقييم البشري (Human Evaluation)

السمية

الهلوسة

التحيز (Bias)

مقياس الدقة/الإخلاص (Faithfulness)

معيار MMLU (فهم اللغة متعدد المهام الضخم)

درجة الاستجابة المفيدة (Helpfulness Score)

التقييم بالتعلم من أمثلة قليلة (Few-Shot Evaluation)

المحاذاة (Alignment)

مقياس التنوع (Diversity Metric)

درجة الإحالة المرجعية المتقاطعة (Cross-Reference Score)

مقياس TruthfulQA

مقياس المتانة (Robustness Metric)

درجة متابعة التعليمات (Instruction Following Score)

لم يتم العثور على نتائج