قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
Policy Gradient
طريقة تحسين مباشرة تقوم بتعديل معلمات السياسة باتباع تدرج العائد المتوقع، مما يسمح بتعلم السياسات العشوائية دون الحاجة إلى نموذج للبيئة.
REINFORCE Algorithm
خوارزمية أساسية لتدرج السياسة تستخدم تقدير مونت كارلو للتدرج لتحديث معلمات السياسة بناءً على الحلقات الملاحظة بالكامل.
Actor-Critic Methods
نهج هجين يجمع بين ممثل يتعلم السياسة وناقد يقدر دالة القيمة، مما يقلل من تباين تقديرات تدرج السياسة.
Advantage Function
مقياس لتفوق إجراء ما على متوسط الإجراءات في حالة معينة، ويحسب كالفارق بين دالة Q ودالة V لتقليل تباين التدرج.
Proximal Policy Optimization (PPO)
خوارزمية تحسن السياسة عن طريق تقييد التحديثات لتبقى قريبة من السياسة السابقة، مستخدمة دالة هدف مقصوصة لضمان استقرار التعلم.
Trust Region Policy Optimization (TRPO)
طريقة تضمن تحسينات رتيبة للأداء عن طريق تحسين السياسة في منطقة ثقة محددة بالتباعد KL بين السياسات المتعاقبة.
Natural Policy Gradient
متغير من تدرج السياسة يستخدم مقياس فيشر لإجراء تحديثات ثابتة تجاه الترميز، مما يضمن تقارباً أكثر استقراراً وكفاءة.
Policy Network
شبكة عصبية مُرمَّزة تمثل السياسة π(a|s; θ)، وتُولد توزيع احتمالات على الإجراءات بالشرط على الحالة الحالية.
تقارب سياسة مونت كارلو
تقنية لتقدير التدرج تستخدم مسارات كاملة لحساب العوائد، مما يسمح بتقدير غير متحيز ولكن مع تباين عالٍ.
دالة الأساس
دالة تطرح من العائد لتقليل تباين تقدير التدرج دون إدخال انحراف، عادةً ما تكون دالة قيمة الحالة.
أخذ العينات بالأهمية
تقنية تسمح باستخدام البيانات المجموعة بسياسة قديمة لتحديث سياسة جديدة، من خلال ترجيح العينات حسب نسبة احتمالية السياسات.
تنظيم الانتروبيا
إضافة مصطلح انتروبيا إلى دالة الهدف لتشجيع الاستكشاف من خلال معاقبة السياسات الحتمية الزائدة، مما يحسن قوة التعلم.
تدرج السياسة الحتمية
امتداد لتدرج السياسة إلى مساحات الإجراء المستمرة حيث تكون السياسة حتمية، فعال بشكل خاص في البيئات عالية الأبعاد.
السياسة العشوائية
سياسة ممثلة بتوزيع احتمالات π(a|s) على الإجراءات، مما يسمح بالاستكشاف الذاتي وهو أمر ضروري لطرق تدرج السياسة.
قيد تباعد كولباك-ليبلر
قيد يحد من تباعد كولباك-ليبلر بين السياسات المتعاقبة لضمان تحديثات مستقرة وتجنب التغيرات المفرطة في السلوك.
تقدير الميزة المعمم (GAE)
طريقة لتقدير الميزة تجمع بين الانحراف والتباين عن طريق متوسط مرجح للمقدرات متعددة الخطوات، مما يوفر توازنًا مثاليًا للتعلم.
مبرهنة تدرج السياسة
مبرهنة أساسية توفر التعبير التحليلي لتدرج العائد المتوقع بالنسبة لمعلمات السياسة، وتشكل الأساس النظري للطرق.
العائد المستقبلي
مجموع المكافآت المستقبلية المخصومة من خطوة زمنية معينة، وتستخدم كمقدر للتدرج في خوارزميات تدرج السياسة.