الصلابة الأخلاقية
هجوم الاستخراج
تقنية تهدف إلى إعادة إنتاج سلوك نموذج الذكاء الاصطناعي، بما في ذلك تحيزاته وثغراته الأخلاقية، من خلال استجوابه بشكل منهجي. يمكن لهذه الهجمات كشف واستغلال نقاط الضعف الأخلاقية للنظام الأصلي.
← رجوع