قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
LinUCB
خوارزمية اللصوص السياقية التي تستخدم الانحدار الخطي مع حد الثقة العلوي (Upper Confidence Bound) لموازنة الاستكشاف والاستغلال في مساحات السياق المستمرة.
Regret
مقياس أداء يحدد الفرق بين المكافأة التراكمية المثلى وتلك التي حصلت عليها الخوارزمية، وهو ضروري لتقييم فعالية استراتيجيات اللصوص السياقية.
Contexte
مجموعة من الخصائص الملحوظة (الميزات) التي تؤثر على القرار الأمثل في لحظة معينة، وتستخدم كأساس لاختيار الإجراءات المخصصة في اللصوص السياقية.
Off-policy Evaluation
تقنية تقييم تقدر أداء سياسة جديدة باستخدام البيانات التي تم جمعها بواسطة سياسة موجودة، دون الحاجة إلى نشر مباشر.
Hyperparamètres
معلمات تكوين خوارزميات اللصوص السياقية (مثل معامل الاستكشاف أو حجم الدفعات الصغيرة) التي تؤثر على التقارب والأداء.
Récompense Binaire
نوع من التغذية الراجعة في اللصوص السياقية حيث تقتصر النتيجة على النجاح (1) أو الفشل (0)، وهو شائع في تطبيقات التوصية والإعلان.
Logistic Bandit
متغير من اللصوص السياقية يستخدم الانحدار اللوجستي لنمذجة احتمالية المكافأة الثنائية بناءً على السياق، وهو مناسب بشكل خاص لمشاكل التصنيف.
Neural Bandit
نهج اللصوص السياقية الذي يستخدم الشبكات العصبية لنمذجة العلاقة المعقدة بين السياق والمكافأة، وهو قادر على التقاط اللاخطية في البيانات.
تدرج السياسة
طريقة لتحسين السياسة مباشرة في مشكلات اللصوص السياقية، حيث يتم تعديل المعلمات لزيادة المكافأة المتوقعة مباشرة بدلاً من تقدير القيم أولاً.
UCB السياقي
عائلة من الخوارزميات التي تجمع بين مبادئ UCB والنماذج السياقية لضمان حد أعلى على الندم النظري مع ضمانات الأداء.