🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक
📖
Policy Gradient Methods

इम्पोर्टेंस सैंपलिंग

तकनीक जो पुरानी पॉलिसी से एकत्रित डेटा का उपयोग नई पॉलिसी को अपडेट करने के लिए करने की अनुमति देती है, नमूनों को पॉलिसी की संभावना अनुपात के अनुसार वजन देकर।

← पीछे