تدرج السياسة الحتمية العميق (DDPG)
شبكة الممثل
شبكة عصبية تتعلم تحويل الحالات مباشرة إلى الإجراءات المثلى في مساحة الإجراء المستمرة.
← رجوعشبكة عصبية تتعلم تحويل الحالات مباشرة إلى الإجراءات المثلى في مساحة الإجراء المستمرة.
← رجوع