🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक
📖
Policy Gradient Methods

पॉलिसी ग्रेडिएंट

एक प्रत्यक्ष अनुकूलन विधि जो अपेक्षित प्रतिफल के ग्रेडिएंट का पालन करके नीति के पैरामीटर को समायोजित करती है, जिससे स्टोचैस्टिक नीतियों का सीखना संभव होता है बिना वातावरण के मॉडल की आवश्यकता के।

← पीछे