قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
هجوم الخصم
التلاعب المقصود ببيانات الإدخال لخداع نموذج ذكاء اصطناعي وإحداث أخطاء في التصنيف أو سلوكيات غير متوقعة. تستغل هذه الهجمات الثغرات الرياضية للشبكات العصبية عن طريق إدخال اضطرابات غير محسوسة للإنسان ولكنها قابلة للكشف من قبل الخوارزمية.
المتانة الأخلاقية
قدرة نظام الذكاء الاصطناعي على الحفاظ على مبادئه الأخلاقية وسلوكياته العادلة في مواجهة محاولات التلاعب أو الظروف غير المتوقعة. تضمن الحفاظ على القيم الأخلاقية للنظام حتى تحت الإجهاد أو الهجوم الخوارزمي.
الدفاع المضاد للخصم
مجموعة من التقنيات التي تهدف إلى تعزيز نماذج الذكاء الاصطناعي ضد الهجمات المعاكسة، بما في ذلك التدريب المعاكس، وكشف الشذوذ، وتنقية المدخلات. تهدف هذه الأساليب إلى الحفاظ على النزاهة الوظيفية والأخلاقية للنظام في مواجهة محاولات التخريب.
تسميم البيانات
إدراج ضار للبيانات الفاسدة في مجموعة التدريب للإضرار بالأداء المستقبل للنموذج وإدخال تحيزات منهجية. يمكن لهذه التقنية أن تضعف عمداً القدرات الأخلاقية والقرارية لنظام الذكاء الاصطناعي.
تملص النموذج
استراتيجية هجوم حيث تسمح المدخلات المصممة خصيصاً بتجاوز آليات الكشف أو التصنيف لنموذج ذكاء اصطناعي. يهدد التملص مباشرة المتانة الأخلاقية من خلال السماح بانتهاك القيود والقواعد الأخلاقية المحددة.
الاضطراب الأخلاقي
تعديل دقيق للمدخلات أو المعلمات يهدف بشكل خاص إلى إضرار آليات اتخاذ القرار الأخلاقية لنظام ذكاء اصطناعي. تستهدف هذه الهجمات طبقات الحكم الأخلاقي لإحداث سلوكيات غير متوافقة مع القيم المبرمجة.
الاستقرار الأخلاقي
مقياس لاتساق القرارات الأخلاقية لنظام ذكاء اصطناعي أمام تغييرات طفيفة في ظروف الإدخال أو البيئة. يضمن الاستقرار بقاء الأحكام الأخلاقية ثابتة وقابلة للتنبؤ على الرغم من التقلبات السياقية.
المرونة الخوارزمية
قدرة نظام الذكاء الاصطناعي على التعافي والحفاظ على أدائه الأخلاقي بعد تعرضه لهجمات أو اضطرابات كبيرة. تشمل المرونة آليات التصحيح الذاتي والتكيف للحفاظ على النزاهة الأخلاقية على المدى الطويل.
الأمن الأخلاقي
مجال أمن cyberspace AI متخصص في حماية آليات اتخاذ القرار الأخلاقية ضد التلاعب والخرق. يجمع بين التقنيات التشفيرية، والتحقق الرسمي، والمراقبة السلوكية لضمان النزاهة الأخلاقية.
الضعف الأخلاقي
نقطة ضعف في بنية أو تنفيذ نظام ذكاء اصطناعي يمكن استغلالها لانتهاك مبادئه الأخلاقية الأساسية. يمكن أن توجد هذه الثغرات في طبقات اتخاذ القرار أو التحقق أو التحكم الأخلاقي للنظام.
اختبار القوة
تقييم منهجي لقدرة نظام الذكاء الاصطناعي على الحفاظ على سلوكياته الأخلاقية في مواجهة السيناريوهات المتطرفة أو المعادية. تحاكي هذه الاختبارات أنواعًا مختلفة من الهجمات والاضطرابات لتحديد وتصحيح نقاط الضعف الأخلاقية.
التحقق الأخلاقي
عملية رسمية للتحقق من أن نظام الذكاء الاصطناعي يحترم باستمرار قيوده الأخلاقية حتى تحت الضغوط العدائية. يجمع التحقق بين الاختبارات الإحصائية، والتحقق الرسمي، والتدقيق السلوكي لضمان الامتثال الأخلاقي.
التدبير المضاد الأخلاقي
آلية استباقية أو تفاعلية مصممة لمنع أو تحييد محاولات خرق المبادئ الأخلاقية لنظام الذكاء الاصطناعي. تشمل هذه التدابير المضادة كشف الشذوذ، والعزل القراري، والتعافي الأخلاقي.
الاستدلال المعاكس
عملية يستغل فيها المهاجم ثغرات نموذج الذكاء الاصطناعي لاستنتاج معلومات حساسة أو فرض قرارات غير أخلاقية. يهدد الاستدلال المعاكس مباشرة سرية ونزاهة النظام الأخلاقية.
القوة التوزيعية
قدرة نظام الذكاء الاصطناعي على الحفاظ على أدائه الأخلاقي في مواجهة التغييرات في توزيع بيانات الإدخال أو الشروط التشغيلية. تضمن هذه القوة استقرار القرارات الأخلاقية على الرغم من الانحرافات التوزيعية.
هجوم الاستخراج
تقنية تهدف إلى إعادة إنتاج سلوك نموذج الذكاء الاصطناعي، بما في ذلك تحيزاته وثغراته الأخلاقية، من خلال استجوابه بشكل منهجي. يمكن لهذه الهجمات كشف واستغلال نقاط الضعف الأخلاقية للنظام الأصلي.
الشهادة الأخلاقية
العملية الرسمية التي تشهد على أن نظام الذكاء الاصطناعي يحافظ على ضماناته الأخلاقية في ظروف محددة، بما في ذلك مواجهة الهجمات. الشهادة الأخلاقية تتحقق من متانة آليات اتخاذ القرار الأخلاقي وفقًا للمعايير المعترف بها.
التدريب الخصومي
طريقة تدريب حيث يتعلم النموذج في نفس الوقت مقاومة الهجمات والحفاظ على مبادئه الأخلاقية. هذا النهج يعزز المتانة من خلال تعريض النظام لسيناريوهات معادية أثناء تعلمه.