बहु-उद्देश्य PPO

बहु-उद्देश्य वातावरण के लिए प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन एल्गोरिथ्म का अनुकूलन, जो एक साथ कई उद्देश्य फलनों को अनुकूलित करता है। एल्गोरिथ्म उद्देश्यों के बीच समझौता स्थान का अन्वेषण करते समय निकटता बाधाओं को बनाए रखता है।

← पीछे