اختبار A/B لتعلم الآلة - مسرد الذكاء الاصطناعي

📖

المصطلحات

التداخل

تقنية تقييم عبر الإنترنت حيث يتم خلط نتائج نماذج الترتيب المتعددة وعرضها للمستخدم في نفس الوقت، مما يسمح بجمع التغذية الراجعة بشكل أسرع وأكثر حساسية من اختبار A/B التقليدي.

📖

المصطلحات

تحليل القوة

حساب مسبق يهدف إلى تحديد الحد الأدنى لحجم العينة المطلوب لاختبار A/B للكشف عن تأثير بدرجة معينة بمستوى ثقة وقوة إحصائية محددين.

📖

المصطلحات

OAT (اختبار A/B عبر الإنترنت)

عملية تقييم النماذج أو الخوارزميات في ظروف حقيقية، بتوجيه جزء من حركة مرور المستخدم إلى الإصدار الجديد لقياس تأثيره على مقاييس الأداء التجارية.

📖

المصطلحات

الإصدار التجريبي المحدود

استراتيجية نشر تدريجي حيث يتم عرض النموذج الجديد أولاً على مجموعة صغيرة جداً من المستخدمين أو الطلبات، قبل التوسع التدريجي إذا كانت مؤشرات الصحة إيجابية.

📖

المصطلحات

النشر في الظل

نشر حيث يتلقى النموذج الجديد نسخة من حركة المرور في الوقت الفعلي ويولد توقعات بالتوازي مع النموذج القديم، دون التأثير على المستخدمين، لمقارنة الأداء دون اتصال.

📖

المصطلحات

تأثير الجدة

انحياز في اختبارات A/B حيث يتفاعل المستخدمون إيجابياً مع الجديد لمجرد أنه جديد، بغض النظر عن جودته الجوهرية، مما يمكن أن يحرف تقييم النموذج الجديد.

📖

المصطلحات

المقياس الأساسي

مؤشر أداء رئيسي (KPI) فريد ومستخدم لاتخاذ القرار النهائي خلال اختبار A/B، تم اختياره لارتباطه القوي بالهدف التجاري (مثال: معدل التحويل، CTR).

📖

المصطلحات

مقاييس السلامة

مقاييس ثانوية يتم مراقبتها خلال الاختبار للتأكد من أن التحسين في المقياس الرئيسي لا يؤدي إلى انحدار سلبي في جوانب أخرى مهمة من النظام (مثال: زمن الاستجابة، التكلفة).

📖

المصطلحات

CUPED (Controlled-experiment Using Pre-Experiment Data)

تقنية تقليل التباين التي تستخدم البيانات السلوكية للمستخدمين قبل التجربة لزيادة الحساسية الإحصائية لاختبارات A/B وتقليل المدة اللازمة.

📖

المصطلحات

Two-Sided T-Test

اختبار إحصائي يستخدم لتحديد ما إذا كان هناك فرق مهم بين وسطين لمجموعتين (مثال: أداء النموذج أ مقابل ب)، دون افتراض اتجاه هذا الفرق.

📖

المصطلحات

Chi-Squared Test

اختبار فرضية غير معلمي يتم تطبيقه على البيانات الفئوية (مثال: معدل النقرات) لتقييم ما إذا كان توزيع التكرارات الملاحظة بين متغيرات الاختبار يعود للصدفة.

📖

المصطلحات

Sample Ratio Mismatch (SRM)

شذوذ يتم اكتشافه عندما تنحرف النسبة الفعلية للمستخدمين المخصصين لكل متغير في الاختبار بشكل كبير عن النسبة المتوقعة (مثال: 50/50)، مما يشير بشكل محتمل إلى تحيز في التكوين.

📖

المصطلحات

Peeking Problem

تحيز يتم إدخاله عند تحليل نتائج اختبار A/B بشكل متكرر قبل نهايته المخططة، مما يزيد من خطر الاكتشافات الخاطئة (إيجابيات كاذبة) بسبب تضخم معدل الخطأ من النوع الأول.

📖

المصطلحات

Holdout Group

شريحة من المستخدمين يتم الحفاظ عليها عمداً على الإصدار القديم من النموذج حتى بعد النشر العام للإصدار الجديد، لقياس التأثير طويل الأمد بشكل مستمر.

📖

المصطلحات

Counterfactual Evaluation

منهجية لتقدير أداء نموذج جديد باستخدام سجلات نموذج الإنتاج، من خلال محاكاة كيف كان النموذج الجديد سيتصرف على نفس البيانات التاريخية.

قاموس الذكاء الاصطناعي

التداخل

تحليل القوة

OAT (اختبار A/B عبر الإنترنت)

الإصدار التجريبي المحدود

النشر في الظل

تأثير الجدة

المقياس الأساسي

مقاييس السلامة

CUPED (Controlled-experiment Using Pre-Experiment Data)

Two-Sided T-Test

Chi-Squared Test

Sample Ratio Mismatch (SRM)

Peeking Problem

Holdout Group

Counterfactual Evaluation

لم يتم العثور على نتائج