🏠 الرئيسية
المقاييس
📊 جميع المقاييس 🦖 ديناصور v1 🦖 ديناصور v2 ✅ تطبيقات قائمة المهام 🎨 صفحات حرة إبداعية 🎯 FSACB - العرض النهائي 🌍 مقياس الترجمة
النماذج
🏆 أفضل 10 نماذج 🆓 نماذج مجانية 📋 جميع النماذج ⚙️ كيلو كود
الموارد
💬 مكتبة الأوامر 📖 قاموس الذكاء الاصطناعي 🔗 روابط مفيدة

قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227
الفئات
2,955
الفئات الفرعية
34,512
المصطلحات
📖
المصطلحات

Policy Gradient

طريقة تحسين مباشرة تقوم بتعديل معلمات السياسة باتباع تدرج العائد المتوقع، مما يسمح بتعلم السياسات العشوائية دون الحاجة إلى نموذج للبيئة.

📖
المصطلحات

REINFORCE Algorithm

خوارزمية أساسية لتدرج السياسة تستخدم تقدير مونت كارلو للتدرج لتحديث معلمات السياسة بناءً على الحلقات الملاحظة بالكامل.

📖
المصطلحات

Actor-Critic Methods

نهج هجين يجمع بين ممثل يتعلم السياسة وناقد يقدر دالة القيمة، مما يقلل من تباين تقديرات تدرج السياسة.

📖
المصطلحات

Advantage Function

مقياس لتفوق إجراء ما على متوسط الإجراءات في حالة معينة، ويحسب كالفارق بين دالة Q ودالة V لتقليل تباين التدرج.

📖
المصطلحات

Proximal Policy Optimization (PPO)

خوارزمية تحسن السياسة عن طريق تقييد التحديثات لتبقى قريبة من السياسة السابقة، مستخدمة دالة هدف مقصوصة لضمان استقرار التعلم.

📖
المصطلحات

Trust Region Policy Optimization (TRPO)

طريقة تضمن تحسينات رتيبة للأداء عن طريق تحسين السياسة في منطقة ثقة محددة بالتباعد KL بين السياسات المتعاقبة.

📖
المصطلحات

Natural Policy Gradient

متغير من تدرج السياسة يستخدم مقياس فيشر لإجراء تحديثات ثابتة تجاه الترميز، مما يضمن تقارباً أكثر استقراراً وكفاءة.

📖
المصطلحات

Policy Network

شبكة عصبية مُرمَّزة تمثل السياسة π(a|s; θ)، وتُولد توزيع احتمالات على الإجراءات بالشرط على الحالة الحالية.

📖
المصطلحات

تقارب سياسة مونت كارلو

تقنية لتقدير التدرج تستخدم مسارات كاملة لحساب العوائد، مما يسمح بتقدير غير متحيز ولكن مع تباين عالٍ.

📖
المصطلحات

دالة الأساس

دالة تطرح من العائد لتقليل تباين تقدير التدرج دون إدخال انحراف، عادةً ما تكون دالة قيمة الحالة.

📖
المصطلحات

أخذ العينات بالأهمية

تقنية تسمح باستخدام البيانات المجموعة بسياسة قديمة لتحديث سياسة جديدة، من خلال ترجيح العينات حسب نسبة احتمالية السياسات.

📖
المصطلحات

تنظيم الانتروبيا

إضافة مصطلح انتروبيا إلى دالة الهدف لتشجيع الاستكشاف من خلال معاقبة السياسات الحتمية الزائدة، مما يحسن قوة التعلم.

📖
المصطلحات

تدرج السياسة الحتمية

امتداد لتدرج السياسة إلى مساحات الإجراء المستمرة حيث تكون السياسة حتمية، فعال بشكل خاص في البيئات عالية الأبعاد.

📖
المصطلحات

السياسة العشوائية

سياسة ممثلة بتوزيع احتمالات π(a|s) على الإجراءات، مما يسمح بالاستكشاف الذاتي وهو أمر ضروري لطرق تدرج السياسة.

📖
المصطلحات

قيد تباعد كولباك-ليبلر

قيد يحد من تباعد كولباك-ليبلر بين السياسات المتعاقبة لضمان تحديثات مستقرة وتجنب التغيرات المفرطة في السلوك.

📖
المصطلحات

تقدير الميزة المعمم (GAE)

طريقة لتقدير الميزة تجمع بين الانحراف والتباين عن طريق متوسط مرجح للمقدرات متعددة الخطوات، مما يوفر توازنًا مثاليًا للتعلم.

📖
المصطلحات

مبرهنة تدرج السياسة

مبرهنة أساسية توفر التعبير التحليلي لتدرج العائد المتوقع بالنسبة لمعلمات السياسة، وتشكل الأساس النظري للطرق.

📖
المصطلحات

العائد المستقبلي

مجموع المكافآت المستقبلية المخصومة من خطوة زمنية معينة، وتستخدم كمقدر للتدرج في خوارزميات تدرج السياسة.

🔍

لم يتم العثور على نتائج