Q-learning مزدوج
المبالغة في التقدير الأقصى
تحيّز منهجي في التعلم Q حيث يؤدي استخدام نفس دالة Q لاختيار وتقييم الإجراءات إلى المبالغة في تقدير قيم الإجراءات، وهو أمر مشكل بشكل خاص في البيئات العشوائية.
← رجوع