Policy Gradient Methods
रिटर्न-टू-गो
यह एक दिए गए समय चरण से भविष्य के छूट दिए गए इनामों का योग है, जिसका उपयोग पॉलिसी ग्रेडिएंट एल्गोरिदम में ग्रेडिएंट के अनुमानक के रूप में किया जाता है।
← पीछे