طرق الممثل-الناقد
تدرج السياسة الحتمية العميقة
خوارزمية الممثل-الناقد لمساحات الإجراء المستمرة تستخدم شبكات عصبية عميقة مع سياسة حتمية ومخزن إعادة التشغيل للتعلم المستقر خارج السياسة
← رجوعخوارزمية الممثل-الناقد لمساحات الإجراء المستمرة تستخدم شبكات عصبية عميقة مع سياسة حتمية ومخزن إعادة التشغيل للتعلم المستقر خارج السياسة
← رجوع