قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التوزيع حسب الكميات المستمرة
تمثيل توزيع العائد كمجموعة من الكميات المتطورة في مساحات الإجراءات المستمرة، مما يسمح بنمذجة دقيقة لعدم اليقين والمخاطر.
الإسقاط التوزيعي كرامر-وولد
تقنية رياضية تسمح بمقارنة التوزيعات من خلال الإسقاط على اتجاهات أحادية البعد، ضرورية للمقاييس التوزيعية في التعلم المعزز المستمر.
شبكة التوزيع الذري
هيكلية عصبية تمثل توزيعاً كمجموعة موزونة من الذرات الثابتة، مناسبة لمشاكل الإجراء المستمر مع عائد عشوائي.
المخاطرة التوزيعية المستمرة
مقياس يكمّم عدم اليقين في توزيعات العائد لمساحات الإجراءات المستمرة، حاسم لتقييم السياسات القوية.
السياسة العشوائية التوزيعية
استراتيجية عمل تدمج توزيع العائد مباشرة في اختيار الإجراءات المستمرة، محسّنة على مجمل التوزيع بدلاً من التوقع وحده.
توقع التوزيع الكمي
عامل يحسب التوقع من التمثيل الكمي، محافظاً على الخصائص التوزيعية في المساحات المستمرة.
العيّنة بالرفض التوزيعي
طريقة عيّنة تحافظ على الخصائص التوزيعية عند توليد الإجراءات المستمرة من توزيعات العائد المعقدة.
التحسين التوزيعي العشوائي
نموذج تحسين يعمل مباشرة على توزيعات العائد بدلاً من تقديراتها النقطية في المساحات المستمرة.
التقريب باستخدام النوى التوزيعية
تقنية تستخدم دوال النوى لتقريب توزيعات العوائد في مساحات الإجراءات المستمرة عالية الأبعاد.
مسافة واسرشتاين في التعلم المعزز المستمر
مقياس يقيس التشابه بين توزيعات العوائد، مناسب بشكل خاص لمشاكل الإجراء المستمر ذات الهندسة المعقدة.
أهمية العينات التوزيعية
تقنية عينات مرجحة تحافظ على الخصائص التوزيعية أثناء تقدير التدرجات السياسية المستمرة.
التحديث التوزيعي باستخدام مونت كارلو
خوارزمية تقوم بتحديث توزيعات العوائد باستخدام عينات مونت كارلو في مساحات الإجراءات المستمرة، مع الحفاظ على الشكل التوزيعي.
تقليل التباين التوزيعي
مجموعة من التقنيات التي تهدف إلى تقليل التباين في التقديرات التوزيعية دون فقدان المعلومات حول شكل التوزيعات.
السياسة الجشعة التوزيعية
استراتيجية تختار الإجراءات المثلى وفقًا لمعيار على التوزيع الكامل (مثال: الكميات، القيمة المعرضة للخطر المشروطة) بدلاً من التوقع وحده في المساحة المستمرة.
معادلة بيلمان التوزيعية
صياغة معادلة بيلمان التي تعمل على توزيعات كاملة بدلاً من القيم العددية، أساسية للتعلم المعزز التوزيعي المستمر.
الناقد التوزيعي المستمر
شبكة عصبية تقدر التوزيع الكامل للعوائد للحالات-الإجراءات المستمرة، تحل محل الناقد التقليدي ذي القيمة العددية.
التحيز التوزيعي في الإجراء المستمر
ظاهرة حيث تُدخل التقديرات التوزيعية تحيزات منهجية في تقدير العوائد في مساحات الإجراءات المستمرة
التطبيع التوزيعي المستمر
تقنية تطبيع تحافظ على الخصائص التوزيعية أثناء معالجة الإجراءات المستمرة بمقاييس مختلفة
الاستكشاف التوزيعي التكيفي
استراتيجية استكشاف تستخدم معلومات التوزيع الكاملة للعائد لتكييف السلوك الاستكشافي في الإجراء المستمر