Policy Gradient Methods
पॉलिसी ग्रेडिएंट
एक प्रत्यक्ष अनुकूलन विधि जो अपेक्षित प्रतिफल के ग्रेडिएंट का पालन करके नीति के पैरामीटर को समायोजित करती है, जिससे स्टोचैस्टिक नीतियों का सीखना संभव होता है बिना वातावरण के मॉडल की आवश्यकता के।
← पीछे