التعلم بالتعزيز متعدد الأهداف المستمر
الترجيح الديناميكي
استراتيجية تكيفية تعدل أوزان الأهداف خلال التعلم لاستكشاف جبهة باريتو بكفاءة وتجنب النهايات المثلى المحلية.
← رجوعاستراتيجية تكيفية تعدل أوزان الأهداف خلال التعلم لاستكشاف جبهة باريتو بكفاءة وتجنب النهايات المثلى المحلية.
← رجوع