التعلم العميق بالتعزيز متعدد الأهداف
PPO متعدد الأهداف
تكيف لخوارزمية Proximal Policy Optimization للبيئات متعددة الأهداف، تحسين عدة دوال هدف في نفس الوقت. الخوارزمية تحافظ على قيود التقارب مع استكشاف فضاء الموازنات بين الأهداف.
← رجوع