آليات الضبط - مسرد الذكاء الاصطناعي

📖

المصطلحات

التحكم في المحتوى

آلية تهدف إلى تقييد أو توجيه مخرجات نموذج اللغة الكبير (LLM) لتجنب توليد محتوى غير مرغوب فيه، خطير، أو خارج النطاق المحدد.

📖

المصطلحات

حواجز الأمان للموجهات

مجموعة من القواعد والفلاتر المطبقة مسبقًا على مدخلات المستخدم لاكتشاف وحظر الطلبات الضارة، غير الملائمة، أو التي تحاول تجاوز سياسات الأمان الخاصة بالنموذج.

📖

المصطلحات

تصفية المخرجات

آلية أمان بعد التوليد تقوم بتحليل استجابة نموذج اللغة الكبير لتحديد وإزالة المحتوى المحظور قبل تقديمه للمستخدم.

📖

المصطلحات

كسر الحماية (Jailbreaking)

مجموعة من تقنيات الهندسة العكسية التي تهدف إلى تجاوز آليات التحكم والأمان في نموذج اللغة الكبير لإجباره على إنتاج استجابات محظورة عادةً.

📖

المصطلحات

طبقة الأمان

مكون برمجي منفصل، غالبًا ما يكون نموذج تصنيف، يعترض مدخلات ومخرجات نموذج اللغة الكبير لتقييم مدى امتثالها لسياسات الأمان.

📖

المصطلحات

محاذاة فك التشفير

استراتيجية لتعديل عملية فك التشفير (مثل البحث الشعاعي، أخذ العينات) لمعاقبة توليد الرموز أو تسلسلات الرموز المرتبطة بمحتوى غير آمن.

📖

المصطلحات

النقد الذاتي

قدرة نموذج اللغة الكبير على تقييم استجابته المولدة الخاصة به مقابل مجموعة من المعايير المحددة مسبقًا (الاتساق، الأمان، الدقة) ومراجعتها إذا لزم الأمر.

📖

المصطلحات

اللاحقة العدائية

تسلسل من الأحرف يتم تعلمه وإضافته إلى نهاية الموجه للتلاعب بالسلوك الداخلي لنموذج اللغة الكبير وإجباره على إخراج محدد، غالبًا ما يستخدم في هجمات كسر الحماية.

📖

المصطلحات

نمذجة التفضيلات

عملية إنشاء نموذج مكافأة (Reward Model) يتعلم التفضيلات البشرية من خلال مقارنات زوجية للاستجابات، وهو أمر أساسي للتعلم المعزز من التغذية الراجعة البشرية (RLHF).

📖

المصطلحات

تدريب الرفض

مرحلة تدريب متخصصة يتعلم فيها نموذج اللغة الكبير (LLM) تحديد الطلبات غير المناسبة وتوليد ردود رفض مهذبة ومفيدة بدلاً من محاولة الإجابة.

📖

المصطلحات

تصنيف عدم الضرر

مهمة تصنيف ثنائية تهدف إلى تحديد ما إذا كان مخرج نموذج اللغة الكبير (LLM) 'غير ضار' أو 'ضار'، وغالبًا ما يتم تطبيقها كمرشح أمان.

📖

المصطلحات

تخفيف التملق

مجموعة من التقنيات التي تهدف إلى تقليل ميل نموذج اللغة الكبير (LLM) إلى الموافقة على فرضيات المستخدم الخاطئة لإرضائه، وهو سلوك غير مرغوب فيه يضر بالصدق.

📖

المصطلحات

توجيه النموذج

تقنية لتعديل سلوك نموذج اللغة الكبير (LLM) ديناميكيًا أثناء الاستدلال، غالبًا عن طريق تعديل اللوجيتات، لتوجيه التوليد نحو مساحة استجابات مرغوبة وآمنة.

قاموس الذكاء الاصطناعي

التحكم في المحتوى

حواجز الأمان للموجهات

تصفية المخرجات

كسر الحماية (Jailbreaking)

طبقة الأمان

محاذاة فك التشفير

النقد الذاتي

اللاحقة العدائية

نمذجة التفضيلات

تدريب الرفض

تصنيف عدم الضرر

تخفيف التملق

توجيه النموذج

لم يتم العثور على نتائج