قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
اللص السياقي
خوارزمية تعلم بالتعزيز تختار بشكل ديناميكي أفضل الإجراءات بناءً على السياق الملاحظ لزيادة المكافآت التراكمية.
الاستكشاف مقابل الاستغلال
معضلة أساسية حيث يجب على الخوارزمية الموازنة بين اكتشاف خيارات جديدة واستغلال الخيارات المعروفة بأنها فعالة.
الحد الأعلى للثقة (UCB)
استراتيجية تختار الذراع بناءً على حد أعلى للثقة في مكافأتها المتوقعة، مما يشجع على استكشاف الإجراءات غير المؤكدة.
أخذ عينات تومسون
خوارزمية بايزية تقوم بأخذ عينات من معلمات المكافأة من توزيعها اللاحق لاتخاذ قرارات احتمالية.
LinUCB
امتداد لـ UCB الذي ينمذج المكافأة المتوقعة كدالة خطية للسياق، ومصمم لفضاءات السياق عالية الأبعاد.
ميزات السياق
متغيرات وصفية تميز الحالة الحالية للبيئة وتؤثر على الاختيار الأمثل للإجراء في اللصوص السياقيين.
تقليل الندم
هدف يهدف إلى تقليل الفرق بين المكافأة التراكمية المحققة وتلك الخاصة بالسياسة المثلى، مما يقيس أداء الخوارزمية.
اللصوص متعدو الذراع
مشكلة أساسية حيث يجب على الوكيل الاختيار من بين عدة خيارات (أذرع) ذات توزيعات مكافأة غير معروفة لزيادة الربح.
دالة المكافأة
دالة رياضية تكمّل العائد الفوري الذي يتم الحصول عليه بعد اتخاذ إجراء في سياق معين، مما يوجه تعلم الخوارزمية.
اختيار الذراع
عملية اختيار الإجراء الأمثل بين الخيارات المتاحة بناءً على التقديرات الحالية للمكافآت والسياق الملاحظ.
المكافأة المتوقعة
القيمة المتوسطة المتوقعة للمكافأة لإجراء معين في سياق محدد، محسوبة من الملاحظات التاريخية.
دالة قيمة الإجراء
دالة Q(a,x) التي تقدّر المكافأة المستقبلية المتوقعة عند اتخاذ الإجراء 'a' في السياق 'x'، وهي أساسية لتقييم السياسات.
التعلم عبر الإنترنت
نموذج تعلم حيث يتم تعديل النموذج بشكل مستمر مع وصول البيانات الجديدة، دون الحاجة إلى إعادة تدريب كاملة.
الذراعيات السياقية العشوائية
متغير حيث تتبع المكافآت توزيعات عشوائية مستقلة ومتطابقة لكل زوج من السياق والإجراء.
الذراعيات العصبية
نهج يستخدم الشبكات العصبية لتقريب دالة القيمة أو السياسة، قادر على التقاط علاقات غير خطية معقدة.