MARL Continu
متعدد الوكلاء - سياسة حتمية متدرجة عميقة (MADDPG)
خوارزمية CTDE تمتد بـ DDPG إلى بيئات متعددة الوكلاء، تستخدم نقاد مركزية وفاعلين لا مركزيين للتعلم في مسافات عمل مستمرة.
← رجوعخوارزمية CTDE تمتد بـ DDPG إلى بيئات متعددة الوكلاء، تستخدم نقاد مركزية وفاعلين لا مركزيين للتعلم في مسافات عمل مستمرة.
← رجوع