قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
عمليات القرار الماركوفية العشوائية
MDP حيث تتبع الانتقالات والمكافآت توزيعات احتمالية، مما يحاكي عدم اليقين البيئي.
طرق مونت كارلو في التعلم المعزز
خوارزميات تستخدم أخذ العينات العشوائية المتكررة لتقدير قيم حالة-الإجراء في البيئات العشوائية.
سياسات عشوائية
استراتيجيات تُرجع توزيعات احتمالية على الأفعال بدلاً من الأفعال الحتمية.
التعلم المعزز البايزي
نهج يتعامل مع عدم اليقين بشأن معلمات النموذج باستخدام توزيعات الاحتمال.
اللصوص متعددي الأذرع العشوائيون
مشكلة الاستكشاف والاستغلال حيث يمتلك كل ذراع توزيع مكافأة عشوائيًا غير معروف.
طرق التمهيد (Bootstrap) في التعلم المعزز (RL)
تقنيات تستخدم إعادة أخذ العينات (resampling) لتحديد كمية عدم اليقين في تقديرات القيمة.
العمليات الغاوسية للتعلم المعزز
استخدام العمليات الغاوسية لنمذجة عدم اليقين في دالة القيمة أو الانتقال.
طرق التجميع في التعلم المعزز العشوائي
الجمع بين مقدرات متعددة لالتقاط عدم اليقين المعرفي في التعلم.
تعلم تعزيز التوزيعي
تعلم التوزيع الكامل للمكافآت بدلاً من مجرد قيمتها المتوقعة.
الانحدار الكمي للتعلم المعزز التوزيعي
نهج محدد للتعلم المعزز التوزيعي يستخدم الانحدار الكمي لنمذجة عدم اليقين.
عمليات ماركوف de décision partiellement observables stochastiques
توسيع لعمليات ماركوف de décision العشوائية مع ملاحظة جزئية، مما يزيد من عدم اليقين بشأن الحالة.
التحسين العشوائي في التعلم المعزز
طرق التحسين التي تأخذ في الاعتبار الضوضاء وعدم اليقين في التدرجات والتحديثات.