قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التداخل
تقنية تقييم عبر الإنترنت حيث يتم خلط نتائج نماذج الترتيب المتعددة وعرضها للمستخدم في نفس الوقت، مما يسمح بجمع التغذية الراجعة بشكل أسرع وأكثر حساسية من اختبار A/B التقليدي.
تحليل القوة
حساب مسبق يهدف إلى تحديد الحد الأدنى لحجم العينة المطلوب لاختبار A/B للكشف عن تأثير بدرجة معينة بمستوى ثقة وقوة إحصائية محددين.
OAT (اختبار A/B عبر الإنترنت)
عملية تقييم النماذج أو الخوارزميات في ظروف حقيقية، بتوجيه جزء من حركة مرور المستخدم إلى الإصدار الجديد لقياس تأثيره على مقاييس الأداء التجارية.
الإصدار التجريبي المحدود
استراتيجية نشر تدريجي حيث يتم عرض النموذج الجديد أولاً على مجموعة صغيرة جداً من المستخدمين أو الطلبات، قبل التوسع التدريجي إذا كانت مؤشرات الصحة إيجابية.
النشر في الظل
نشر حيث يتلقى النموذج الجديد نسخة من حركة المرور في الوقت الفعلي ويولد توقعات بالتوازي مع النموذج القديم، دون التأثير على المستخدمين، لمقارنة الأداء دون اتصال.
تأثير الجدة
انحياز في اختبارات A/B حيث يتفاعل المستخدمون إيجابياً مع الجديد لمجرد أنه جديد، بغض النظر عن جودته الجوهرية، مما يمكن أن يحرف تقييم النموذج الجديد.
المقياس الأساسي
مؤشر أداء رئيسي (KPI) فريد ومستخدم لاتخاذ القرار النهائي خلال اختبار A/B، تم اختياره لارتباطه القوي بالهدف التجاري (مثال: معدل التحويل، CTR).
مقاييس السلامة
مقاييس ثانوية يتم مراقبتها خلال الاختبار للتأكد من أن التحسين في المقياس الرئيسي لا يؤدي إلى انحدار سلبي في جوانب أخرى مهمة من النظام (مثال: زمن الاستجابة، التكلفة).
CUPED (Controlled-experiment Using Pre-Experiment Data)
تقنية تقليل التباين التي تستخدم البيانات السلوكية للمستخدمين قبل التجربة لزيادة الحساسية الإحصائية لاختبارات A/B وتقليل المدة اللازمة.
Two-Sided T-Test
اختبار إحصائي يستخدم لتحديد ما إذا كان هناك فرق مهم بين وسطين لمجموعتين (مثال: أداء النموذج أ مقابل ب)، دون افتراض اتجاه هذا الفرق.
Chi-Squared Test
اختبار فرضية غير معلمي يتم تطبيقه على البيانات الفئوية (مثال: معدل النقرات) لتقييم ما إذا كان توزيع التكرارات الملاحظة بين متغيرات الاختبار يعود للصدفة.
Sample Ratio Mismatch (SRM)
شذوذ يتم اكتشافه عندما تنحرف النسبة الفعلية للمستخدمين المخصصين لكل متغير في الاختبار بشكل كبير عن النسبة المتوقعة (مثال: 50/50)، مما يشير بشكل محتمل إلى تحيز في التكوين.
Peeking Problem
تحيز يتم إدخاله عند تحليل نتائج اختبار A/B بشكل متكرر قبل نهايته المخططة، مما يزيد من خطر الاكتشافات الخاطئة (إيجابيات كاذبة) بسبب تضخم معدل الخطأ من النوع الأول.
Holdout Group
شريحة من المستخدمين يتم الحفاظ عليها عمداً على الإصدار القديم من النموذج حتى بعد النشر العام للإصدار الجديد، لقياس التأثير طويل الأمد بشكل مستمر.
Counterfactual Evaluation
منهجية لتقدير أداء نموذج جديد باستخدام سجلات نموذج الإنتاج، من خلال محاكاة كيف كان النموذج الجديد سيتصرف على نفس البيانات التاريخية.