🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

الممثل-الناقد

بنية تعزيز التعلم تجمع بين شبكة الممثل التي تتعلم سياسة عشوائية وشبكة الناقد التي تقدر دالة القيمة لتقليل تباين تدرج السياسة

📖
المصطلحات

دالة القيمة

دالة رياضية تقدر العائد المتراكم المتوقع من حالة أو زوج حالة-إجراء، وتعمل كإشارة تعلم للناقد في بنية الممثل-الناقد

📖
المصطلحات

الممثل-الناقد ذو الميزة غير المتزامن

بنية موزعة حيث يتدرب عدة وكلاء بالتوازي على بيئات مستقلة، ويشاركون تدرجاتهم بشكل دوري لتسريع التعلم

📖
المصطلحات

تدرج السياسة الحتمية العميقة

خوارزمية الممثل-الناقد لمساحات الإجراء المستمرة تستخدم شبكات عصبية عميقة مع سياسة حتمية ومخزن إعادة التشغيل للتعلم المستقر خارج السياسة

📖
المصطلحات

تدرج السياسة الحتمية العميقة المزدوجة المؤجل

تحسين DDPG يستخدم ناقدين توأمين لتقليل المبالغة في تقدير القيمة وتحديثات مؤجلة للممثل والأهداف لاستقرار أفضل

📖
المصطلحات

الممثل-الناقد الناعم

خوارزمية الممثل-الناقد التي تزيد من المكافأة الانتروبية تجمع بين العائد والإنتروبيا لتشجيع الاستكشاف، باستخدام تحديثات مستقرة وفعالة خارج السياسة

📖
المصطلحات

الممثل-الناقد ذو الميزة

متغير متزامن من A3C يستخدم تقدير الميزة لتقليل تباين تدرج السياسة، مع تحديثات دفعة لاستقرار أفضل على GPU

📖
المصطلحات

شبكة الناقد

شبكة عصبية تقدر دالة القيمة V(s) أو Q(s,a) لتوفير إشارة التعلم TD للممثل، باستخدام خطأ التنبؤ كتدرج تحسين

🔍

لم يتم العثور على نتائج