🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक
📖
Policy Gradient Methods

रीइन्फोर्स एल्गोरिथम

पॉलिसी ग्रेडिएंट का मूल एल्गोरिथम जो ग्रेडिएंट के मोंटे कार्लो अनुमान का उपयोग करके पूर्ण रूप से देखे गए एपिसोड के अनुसार नीति के पैरामीटर को अपडेट करता है।

← पीछे