🏠 होम
बेंचमार्क
📊 सभी बेंचमार्क 🦖 डायनासोर v1 🦖 डायनासोर v2 ✅ टू-डू लिस्ट ऐप्स 🎨 रचनात्मक फ्री पेज 🎯 FSACB - अल्टीमेट शोकेस 🌍 अनुवाद बेंचमार्क
मॉडल
🏆 टॉप 10 मॉडल 🆓 मुफ्त मॉडल 📋 सभी मॉडल ⚙️ किलो कोड
संसाधन
💬 प्रॉम्प्ट लाइब्रेरी 📖 एआई शब्दावली 🔗 उपयोगी लिंक
📖
डीप आरएल मल्टी-ऑब्जेक्टिव्स

बहु-उद्देश्य PPO

बहु-उद्देश्य वातावरण के लिए प्रॉक्सिमल पॉलिसी ऑप्टिमाइजेशन एल्गोरिथ्म का अनुकूलन, जो एक साथ कई उद्देश्य फलनों को अनुकूलित करता है। एल्गोरिथ्म उद्देश्यों के बीच समझौता स्थान का अन्वेषण करते समय निकटता बाधाओं को बनाए रखता है।

← पीछे