طرق الممثل-الناقد
تدرج السياسة الحتمية العميقة المزدوجة المؤجل
تحسين DDPG يستخدم ناقدين توأمين لتقليل المبالغة في تقدير القيمة وتحديثات مؤجلة للممثل والأهداف لاستقرار أفضل
← رجوعتحسين DDPG يستخدم ناقدين توأمين لتقليل المبالغة في تقدير القيمة وتحديثات مؤجلة للممثل والأهداف لاستقرار أفضل
← رجوع