Policy Gradient Methods
रीइन्फोर्स एल्गोरिथम
पॉलिसी ग्रेडिएंट का मूल एल्गोरिथम जो ग्रेडिएंट के मोंटे कार्लो अनुमान का उपयोग करके पूर्ण रूप से देखे गए एपिसोड के अनुसार नीति के पैरामीटर को अपडेट करता है।
← पीछे