المركزي-اللامركزي في التعلم متعدد العوامل
متعدد العوامل متدرج السياسة الحتمية العميق (MADDPG)
امتداد لـ DDPG في بيئات متعددة العوامل باستخدام التعلم المركزي-اللامركزي مع نقاد مركزية وفاعلين لا مركزيين. يتعلم كل وكيل سياسة مع اعتبار سياسات الوكلاء الآخرين كجزء من البيئة.
← رجوع