BenchVibe AI Ecosystem

VIP 👤

🏠 الرئيسية

المقاييس

📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة

النماذج

🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود

الموارد

💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

📖

التعلم العميق بالتعزيز متعدد الأهداف

PPO متعدد الأهداف

تكيف لخوارزمية Proximal Policy Optimization للبيئات متعددة الأهداف، تحسين عدة دوال هدف في نفس الوقت. الخوارزمية تحافظ على قيود التقارب مع استكشاف فضاء الموازنات بين الأهداف.

← رجوع