تدرج السياسة الحتمية العميق (DDPG)
تقريب دالة الشبكة العصبية
استخدام الشبكات العصبية لتقريب وظائف معقدة مثل السياسات أو وظائف القيمة في التعلم المعزز.
← رجوعاستخدام الشبكات العصبية لتقريب وظائف معقدة مثل السياسات أو وظائف القيمة في التعلم المعزز.
← رجوع