डीप आरएल मल्टी-ऑब्जेक्टिव्स
बहु-उद्देश्य PPO
बहु-उद्देश्य वातावरण के लिए प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन एल्गोरिथ्म का अनुकूलन, जो एक साथ कई उद्देश्य फलनों को अनुकूलित करता है। एल्गोरिथ्म उद्देश्यों के बीच समझौता स्थान का अन्वेषण करते समय निकटता बाधाओं को बनाए रखता है।
← पीछे