Policy Gradient Methods
एक्टर-क्रिटिक विधियां
एक हाइब्रिड दृष्टिकोण जो एक एक्टर जो नीति सीखता है और एक क्रिटिक जो मूल्य फ़ंक्शन का अनुमान लगाता है को जोड़ती है, जिससे पॉलिसी ग्रेडिएंट के अनुमानों का वैरियंस कम हो जाता है।
← पीछे