قوة النماذج - مسرد الذكاء الاصطناعي

📖

المصطلحات

التعلم الآلي التنافسي

مجال دراسة الثغرات في نماذج التعلم الآلي أمام الهجمات الخبيثة المصممة لخداع أو تدهور أدائها. هذا التخصص يطور في نفس الوقت تقنيات الهجوم واستراتيجيات الدفاع لتعزيز أمان أنظمة الذكاء الاصطناعي.

📖

المصطلحات

هجمات الإفلات

تقنيات هجوم حيث يتم تطبيق اضطرابات غير محسوسة على بيانات الإدخال لإضلال نموذج تم تدريبه بالفعل. تهدف هذه الهجمات إلى تجاهل قرارات النموذج دون تعديل معلماته الداخلية.

📖

المصطلحات

تسميم البيانات

طريقة هجوم تتضمن حقن بيانات خبيثة في مجموعة التدريب لتعويض أداء النموذج النهائي. الهدف هو إنشاء أبواب خلفية أو تدهور التنبؤات بشكل منهجي على أهداف محددة.

📖

المصطلحات

التدريب المتناقض

طريقة تدريب تدمج بنشاط أمثلة تنافسية في عملية التعلم لتحسين قوة النموذج. هذا النهج يعرض النموذج لأنواع الهجمات التي قد يواجهها في بيئة الإنتاج.

📖

المصطلحات

التنعيم العشوائي

تقنية دفاعية موثقة تضيف ضوضاء غاوسية للمدخلات وتصنف بالتصويت الأغلبية على عدة عينات مضروبة. توفر هذه الطريقة ضمانات رياضية على قوة النموذج ضد الاضطرابات المحدودة.

📖

المصطلحات

استراتيجية هجوم تهدف إلى استنساخ أو سرقة نموذج ملكية عن طريق الاستفسار من واجهة برمجة التطبيقات الخاصة به وتحليل ردودها. تستغل هذه الهجمات تسرب المعلومات عبر التنبؤات لإعادة بناء النموذج أو بيانات تدريبه.

📖

المصطلحات

شهادة القوة

عملية رياضية تضمن بشكل رسمي أن النموذج يحافظ على تنبؤاته الصحيحة لجميع الاضطرابات في نصف قطر محدد. توفر هذه الشهادة حدودًا عليا على قابلية النموذج للتعرض للهجمات.

📖

المصطلحات

إخفاء التدرج

تقنية دفاع تعدل أو تخفي تدرجات النموذج لمنع المهاجمين من حساب الاضطرابات التنافسية الفعالة. على الرغم من أنها قد تبدو فعالة، يمكن تجنب هذا النهج غالبًا بهجمات أكثر تعقيدًا.

📖

المصطلحات

الهجمات العدائية الشاملة

نوع من الهجمات حيث يمكن للتشويش الواحد أن يخدع نموذجًا بشكل فعال على نطاق واسع من المدخلات المختلفة. هذه الهجمات خطيرة بشكل خاص لأنها لا تتطلب حساب تشويش محدد لكل عينة.

📖

المصطلحات

التعلم التبايني القوي

نهج تعليمي يزيد من التشابه بين تمثيلات العينة وإصداراتها المعززة بشكل عدائي. تشجع هذه الطريقة النموذج على تطوير خصائص ثابتة ضد التشويشات الضارة.

📖

المصطلحات

كشف الأمثلة العدائية

مجموعة من التقنيات التي تهدف إلى تحديد المدخلات المحتمل تلاعبها تلقائيًا قبل معالجتها بواسطة النموذج الرئيسي. تستخدم هذه الأنظمة غالبًا مصنفات ميتا أو تحليلات إحصائية للتنشيطات.

📖

المصطلحات

التدريب بالتحقق

طريقة تدريب تدمج المدققين الرسميين في حلقة التعلم لضمان خصائص متانة محددة. تجمع هذه الطريقة بين تحسين الأداء وقيود الأمان المثبتة رياضيًا.

📖

المصطلحات

الهجمات العدائية المادية

هجمات يتم فيها تطبيق التشويشات العدائية في العالم الحقيقي على الأشياء المادية لخداع أنظمة الرؤية. يجب أن تأخذ هذه الهجمات في الاعتبار ظروف الإضاءة وزوايا الرؤية والمتغيرات البيئية الأخرى.

قاموس الذكاء الاصطناعي

التعلم الآلي التنافسي

هجمات الإفلات

تسميم البيانات

التدريب المتناقض

التنعيم العشوائي

هجمات الاستخراج

شهادة القوة

إخفاء التدرج

الهجمات العدائية الشاملة

التعلم التبايني القوي

كشف الأمثلة العدائية

التدريب بالتحقق

الهجمات العدائية المادية

لم يتم العثور على نتائج