التعلم بالتعزيز متعدد الأهداف المستمر
تحسين باريتو المستمر
تحسين مستمر لجبهة باريتو خلال التعلم، مما يسمح للعامل بتكييف مساوماته بين الأهداف بشكل ديناميكي.
← رجوعتحسين مستمر لجبهة باريتو خلال التعلم، مما يسمح للعامل بتكييف مساوماته بين الأهداف بشكل ديناميكي.
← رجوع