التعلم بالتعزيز متعدد الأهداف
خوارزمية باريتو للتعلم بالتعزيز
متغير من التعلم بالتعزيز يحافظ على مجموعة من السياسات المثلى حسب باريتو ويتعلم قيم Q لجميع التوازنات الممكنة بين الأهداف في وقت واحد.
← رجوع