المحاذاة والسلامة - مسرد الذكاء الاصطناعي

📖

المصطلحات

الذكاء الاصطناعي الدستوري

منهجية محاذاة حيث تتبع النماذج مجموعة من المبادئ أو الدستور المحدد مسبقًا، مما يمكنها من التقييم الذاتي وتصحيح استجاباتها وفقًا لهذه القواعد الأخلاقية.

📖

المصطلحات

اختبار الاختراق

عملية منهجية لتقييم نقاط الضعف في النماذج من قبل خبراء يسعون بنشاط لإثارة سلوكيات غير مرغوب فيها أو خطرة لتحديد نقاط الضعف وتصحيحها.

📖

المصطلحات

محاذاة السلامة

مجموعة من التقنيات التي تهدف إلى ضمان تجنب نماذج اللغة توليد محتوى ضار أو خطير أو غير مناسب مع الحفاظ على أدائها العام.

📖

المصطلحات

محاذاة القيم

عملية تهدف إلى محاذاة أهداف وسلوكيات أنظمة الذكاء الاصطناعي مع القيم الإنسانية الأساسية، مما يتطلب فهماً دقيقاً للتفضيلات والأخلاقيات البشرية.

📖

المصطلحات

اختراق النموذج

تقنيات هجوم مصممة للالتفاف على آليات الأمان والمحاذاة في النماذج، وإجبارها على توليد محتوى مقيد أو محظور عادةً.

📖

المصطلحات

نمذجة المكافأة

نهج حيث يتعلم نموذج المكافأة التنبؤ بتفضيلات البشر، ليكون بمثابة دليل للتدريب المعزز لنماذج اللغة الرئيسية.

📖

المصطلحات

المبادئ الدستورية

مجموعة من القواعد والمبادئ الأساسية المحددة بوضوح والتي توجه سلوك نماذج الذكاء الاصطناعي، مما يضمن الاتساق والمحاذاة مع القيم المرغوبة.

📖

المصطلحات

تعلم التفضيلات

مجال من مجالات التعلم الآلي حيث تتعلم النماذج من المقارنات بين الخيارات المختلفة لالتقاط التفضيلات البشرية والمحاذاة معها.

📖

المصطلحات

تدريب عدم الضرر

عملية تدريبية محددة تهدف إلى تعليم النماذج لتجنب توليد محتوى قد يكون ضارًا أو خطيرًا أو مُسيئًا للمستخدمين.

📖

المصطلحات

محاذاة الصدق

هدف محاذاة يهدف إلى ضمان تقديم النماذج لمعلومات صحيحة واقعيًا وتجنب الهلوسة أو الادعاءات غير الموثقة.

📖

المصطلحات

التخفيف من التحيز

مجموعة من التقنيات لتحديد وقياس وتقليل التحيزات النظامية في نماذج اللغة، مما يضمن تمثيلًا عادلًا وغير تمييزي.

📖

المصطلحات

القواعد الحامية

آليات أمان مُدمجة في أنظمة الذكاء الاصطناعي لمراقبة وتصفية المدخلات/المخرجات، والوقاية من التفاعلات الخطيرة أو غير المناسبة في الوقت الفعلي.

📖

المصطلحات

الإشراف الدستوري

طريقة إشرافية يتم فيها توجيه النماذج بواسطة دستور صريح، مما يمكنها من نقد ذاتي وتحسين استجاباتها وفقًا لهذه المبادئ التوجيهية.

📖

المصطلحات

بيانات تفضيلات البشر

مجموعة بيانات مجمعة من تقييمات بشرية مقارنة بين استجابات نموذج مختلفة، تُستخدم كأساس لتدريب المحاذاة والتحسين.

📖

المصطلحات

ضبط السلامة الدقيق

مرحلة ضبط دقيق بعد التدريب الأولي المسبق، تهدف إلى تعديل سلوكيات النموذج بدقة لاحترام قيود السلامة والأخلاق.

📖

المصطلحات

تصنيف المحاذاة

تصنيف منظم للأنواع والأبعاد المختلفة للمحاذاة في الذكاء الاصطناعي، بما في ذلك محاذاة القيم والسلامة والمتانة وإمكانية تفسير النماذج.

قاموس الذكاء الاصطناعي

الذكاء الاصطناعي الدستوري

اختبار الاختراق

محاذاة السلامة

محاذاة القيم

اختراق النموذج

نمذجة المكافأة

المبادئ الدستورية

تعلم التفضيلات

تدريب عدم الضرر

محاذاة الصدق

التخفيف من التحيز

القواعد الحامية

الإشراف الدستوري

بيانات تفضيلات البشر

ضبط السلامة الدقيق

تصنيف المحاذاة

لم يتم العثور على نتائج