बहु-उद्देश्य विकासवादी अनुकूलन
बहु-उद्देश्य पॉलिसी ग्रेडिएंट
स्टोचस्टिक ग्रेडिएंट तकनीकों का उपयोग करके बहु-उद्देश्य इनाम वेक्टर को अधिकतम करने के लिए सीधे नीति मापदंडों को अनुकूलित करने वाली रिइनफोर्समेंट लर्निंग विधि।
← पीछे