Policy Gradient Methods - مسرد الذكاء الاصطناعي

📖

المصطلحات

Policy Gradient

طريقة تحسين مباشرة تقوم بتعديل معلمات السياسة باتباع تدرج العائد المتوقع، مما يسمح بتعلم السياسات العشوائية دون الحاجة إلى نموذج للبيئة.

📖

المصطلحات

REINFORCE Algorithm

خوارزمية أساسية لتدرج السياسة تستخدم تقدير مونت كارلو للتدرج لتحديث معلمات السياسة بناءً على الحلقات الملاحظة بالكامل.

📖

المصطلحات

Actor-Critic Methods

نهج هجين يجمع بين ممثل يتعلم السياسة وناقد يقدر دالة القيمة، مما يقلل من تباين تقديرات تدرج السياسة.

📖

المصطلحات

Advantage Function

مقياس لتفوق إجراء ما على متوسط الإجراءات في حالة معينة، ويحسب كالفارق بين دالة Q ودالة V لتقليل تباين التدرج.

📖

المصطلحات

Proximal Policy Optimization (PPO)

خوارزمية تحسن السياسة عن طريق تقييد التحديثات لتبقى قريبة من السياسة السابقة، مستخدمة دالة هدف مقصوصة لضمان استقرار التعلم.

📖

المصطلحات

Trust Region Policy Optimization (TRPO)

طريقة تضمن تحسينات رتيبة للأداء عن طريق تحسين السياسة في منطقة ثقة محددة بالتباعد KL بين السياسات المتعاقبة.

📖

المصطلحات

Natural Policy Gradient

متغير من تدرج السياسة يستخدم مقياس فيشر لإجراء تحديثات ثابتة تجاه الترميز، مما يضمن تقارباً أكثر استقراراً وكفاءة.

📖

المصطلحات

Policy Network

شبكة عصبية مُرمَّزة تمثل السياسة π(a|s; θ)، وتُولد توزيع احتمالات على الإجراءات بالشرط على الحالة الحالية.

📖

المصطلحات

تقارب سياسة مونت كارلو

تقنية لتقدير التدرج تستخدم مسارات كاملة لحساب العوائد، مما يسمح بتقدير غير متحيز ولكن مع تباين عالٍ.

📖

المصطلحات

دالة الأساس

دالة تطرح من العائد لتقليل تباين تقدير التدرج دون إدخال انحراف، عادةً ما تكون دالة قيمة الحالة.

📖

المصطلحات

أخذ العينات بالأهمية

تقنية تسمح باستخدام البيانات المجموعة بسياسة قديمة لتحديث سياسة جديدة، من خلال ترجيح العينات حسب نسبة احتمالية السياسات.

📖

المصطلحات

تنظيم الانتروبيا

إضافة مصطلح انتروبيا إلى دالة الهدف لتشجيع الاستكشاف من خلال معاقبة السياسات الحتمية الزائدة، مما يحسن قوة التعلم.

📖

المصطلحات

تدرج السياسة الحتمية

امتداد لتدرج السياسة إلى مساحات الإجراء المستمرة حيث تكون السياسة حتمية، فعال بشكل خاص في البيئات عالية الأبعاد.

📖

المصطلحات

السياسة العشوائية

سياسة ممثلة بتوزيع احتمالات π(a|s) على الإجراءات، مما يسمح بالاستكشاف الذاتي وهو أمر ضروري لطرق تدرج السياسة.

📖

المصطلحات

قيد تباعد كولباك-ليبلر

قيد يحد من تباعد كولباك-ليبلر بين السياسات المتعاقبة لضمان تحديثات مستقرة وتجنب التغيرات المفرطة في السلوك.

📖

المصطلحات

تقدير الميزة المعمم (GAE)

طريقة لتقدير الميزة تجمع بين الانحراف والتباين عن طريق متوسط مرجح للمقدرات متعددة الخطوات، مما يوفر توازنًا مثاليًا للتعلم.

📖

المصطلحات

مبرهنة تدرج السياسة

مبرهنة أساسية توفر التعبير التحليلي لتدرج العائد المتوقع بالنسبة لمعلمات السياسة، وتشكل الأساس النظري للطرق.

📖

المصطلحات

العائد المستقبلي

مجموع المكافآت المستقبلية المخصومة من خطوة زمنية معينة، وتستخدم كمقدر للتدرج في خوارزميات تدرج السياسة.

قاموس الذكاء الاصطناعي

Policy Gradient

REINFORCE Algorithm

Actor-Critic Methods

Advantage Function

Proximal Policy Optimization (PPO)

Trust Region Policy Optimization (TRPO)

Natural Policy Gradient

Policy Network

تقارب سياسة مونت كارلو

دالة الأساس

أخذ العينات بالأهمية

تنظيم الانتروبيا

تدرج السياسة الحتمية

السياسة العشوائية

قيد تباعد كولباك-ليبلر

تقدير الميزة المعمم (GAE)

مبرهنة تدرج السياسة

العائد المستقبلي

لم يتم العثور على نتائج