قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التحكم في المحتوى
آلية تهدف إلى تقييد أو توجيه مخرجات نموذج اللغة الكبير (LLM) لتجنب توليد محتوى غير مرغوب فيه، خطير، أو خارج النطاق المحدد.
حواجز الأمان للموجهات
مجموعة من القواعد والفلاتر المطبقة مسبقًا على مدخلات المستخدم لاكتشاف وحظر الطلبات الضارة، غير الملائمة، أو التي تحاول تجاوز سياسات الأمان الخاصة بالنموذج.
تصفية المخرجات
آلية أمان بعد التوليد تقوم بتحليل استجابة نموذج اللغة الكبير لتحديد وإزالة المحتوى المحظور قبل تقديمه للمستخدم.
كسر الحماية (Jailbreaking)
مجموعة من تقنيات الهندسة العكسية التي تهدف إلى تجاوز آليات التحكم والأمان في نموذج اللغة الكبير لإجباره على إنتاج استجابات محظورة عادةً.
طبقة الأمان
مكون برمجي منفصل، غالبًا ما يكون نموذج تصنيف، يعترض مدخلات ومخرجات نموذج اللغة الكبير لتقييم مدى امتثالها لسياسات الأمان.
محاذاة فك التشفير
استراتيجية لتعديل عملية فك التشفير (مثل البحث الشعاعي، أخذ العينات) لمعاقبة توليد الرموز أو تسلسلات الرموز المرتبطة بمحتوى غير آمن.
النقد الذاتي
قدرة نموذج اللغة الكبير على تقييم استجابته المولدة الخاصة به مقابل مجموعة من المعايير المحددة مسبقًا (الاتساق، الأمان، الدقة) ومراجعتها إذا لزم الأمر.
اللاحقة العدائية
تسلسل من الأحرف يتم تعلمه وإضافته إلى نهاية الموجه للتلاعب بالسلوك الداخلي لنموذج اللغة الكبير وإجباره على إخراج محدد، غالبًا ما يستخدم في هجمات كسر الحماية.
نمذجة التفضيلات
عملية إنشاء نموذج مكافأة (Reward Model) يتعلم التفضيلات البشرية من خلال مقارنات زوجية للاستجابات، وهو أمر أساسي للتعلم المعزز من التغذية الراجعة البشرية (RLHF).
تدريب الرفض
مرحلة تدريب متخصصة يتعلم فيها نموذج اللغة الكبير (LLM) تحديد الطلبات غير المناسبة وتوليد ردود رفض مهذبة ومفيدة بدلاً من محاولة الإجابة.
تصنيف عدم الضرر
مهمة تصنيف ثنائية تهدف إلى تحديد ما إذا كان مخرج نموذج اللغة الكبير (LLM) 'غير ضار' أو 'ضار'، وغالبًا ما يتم تطبيقها كمرشح أمان.
تخفيف التملق
مجموعة من التقنيات التي تهدف إلى تقليل ميل نموذج اللغة الكبير (LLM) إلى الموافقة على فرضيات المستخدم الخاطئة لإرضائه، وهو سلوك غير مرغوب فيه يضر بالصدق.
توجيه النموذج
تقنية لتعديل سلوك نموذج اللغة الكبير (LLM) ديناميكيًا أثناء الاستدلال، غالبًا عن طريق تعديل اللوجيتات، لتوجيه التوليد نحو مساحة استجابات مرغوبة وآمنة.