طرق التمهيد (Bootstrap) في التعلم المعزز (RL)
التعلم Q مع التمهيد
امتداد لتعلم Q الكلاسيكي يستخدم رؤوس قيم Q متعددة مدربة على عينات تمهيد مختلفة لالتقاط عدم اليقين وتحسين الاستكشاف.
← رجوعامتداد لتعلم Q الكلاسيكي يستخدم رؤوس قيم Q متعددة مدربة على عينات تمهيد مختلفة لالتقاط عدم اليقين وتحسين الاستكشاف.
← رجوع