طرق التمهيد (Bootstrap) في التعلم المعزز (RL)
الاستكشاف القائم على عدم اليقين
استراتيجية استكشاف تستخدم تقديرات التمهيد (bootstrap) لتحديد عدم اليقين وتوجيه الوكيل نحو الحالات الأقل معرفة في البيئة.
← رجوع