🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

مصفوفة معلومات فيشر

مصفوفة تقيس كمية المعلومات التي يحملها متغير عشوائي حول معلمة غير معروفة، وتستخدم في TRPO لتحديد هندسة فضاء المعلمات.

📖
المصطلحات

تباعد كلبر-لايبلر

مقياس عدم التشابه بين توزيعين احتماليين، يستخدم في TRPO كشرط للحد من الفجوة بين السياسات المتتالية.

📖
المصطلحات

التدرج المترافق

خوارزمية تحسين تكرارية تستخدم في TRPO لحل الأنظمة الخطية بكفاءة في اتجاه انخفاض التدرج الطبيعي.

📖
المصطلحات

البحث الخطي

إجراء تحسين يضبط حجم الخطوة لضمان أن التحديث يحترم قيود منطقة الثقة في TRPO.

📖
المصطلحات

نظرية التحسين الرتيب

نظرية تضمن أن السياسة المحدثة باستخدام TRPO تحسن دائماً أو تحافظ على الأداء المتوقع في ظل شروط معينة لمنطقة الثقة.

📖
المصطلحات

المكافأة المقبلة

مقدر دالة القيمة الذي يستخدم فقط المكافآت المستقبلية بعد خطوة زمنية معينة لتقليل التباين في تقدير التدرج.

📖
المصطلحات

كفاءة العينة

مقياس كفاءة خوارزمية التعلم المعزز في استخدام البيانات المجمعة، TRPO معروف بكفاءة عيناته الجيدة.

📖
المصطلحات

التعلم حسب السياسة

بارادigm التعلم حيث يجب أن تأتي البيانات المجمعة من السياسة الحالية، وهي خاصية أساسية لـ TRPO على عكس طرق off-policy.

🔍

لم يتم العثور على نتائج