التعلم العميق بالتعزيز متعدد الأهداف
دالة القيمة المتجهة
امتداد لدالة القيمة Q في التعلم المعزز حيث كل حالة-إجراء ترتبط بمتجه من القيم، واحدة لكل هدف. هذه التمثيل يسمح بالتقاط الموازنات بين الأهداف المختلفة دون الحاجة إلى تجميع مسبق.
← رجوع