طرق التمهيد (Bootstrap) في التعلم المعزز (RL)

📖

المصطلحات

التمهيد في التعلم المعزز (RL)

تقنية إعادة أخذ العينات المستخدمة في التعلم المعزز لتقدير عدم اليقين في دوال القيمة عن طريق إنشاء تقديرات متعددة من نفس عينة البيانات.

📖

المصطلحات

توزيع قيمة التمهيد

تمثيل احتمالي لدالة القيمة يتم الحصول عليه عن طريق تجميع تقديرات التمهيد المتعددة، مما يسمح بتحديد عدم اليقين في تنبؤات القيمة.

📖

المصطلحات

التمهيد الموزون

تقنية تقوم بتعيين أوزان لعينات التمهيد بناءً على مدى ملاءمتها أو حداثتها لإعطاء أهمية أكبر للتجارب الأكثر إفادة في تقدير القيمة.

📖

المصطلحات

التعلم Q مع التمهيد

امتداد لتعلم Q الكلاسيكي يستخدم رؤوس قيم Q متعددة مدربة على عينات تمهيد مختلفة لالتقاط عدم اليقين وتحسين الاستكشاف.

📖

المصطلحات

C51 (فئوي 51)

خوارزمية توزيعية تقوم بتقسيم توزيع العوائد إلى 51 ذرة احتمالية، باستخدام تقنيات التمهيد لتقدير عدم اليقين في هذا التمثيل.

📖

المصطلحات

IQN (شبكات الكميات الضمنية)

بنية شبكة تتعلم مباشرة توزيع الكميات للعوائد، وتدمج آليات التمهيد لتحديد عدم اليقين في تنبؤات الكميات.

📖

المصطلحات

QR-DQN (DQN الانحدار الكمي)

متغير من DQN يستخدم الانحدار الكمي على عينات التمهيد لتعلم التوزيع الكامل لقيم الإجراءات مع تحديد عدم اليقين.

📖

المصطلحات

شبكات رأس التمهيد

بنية تتضمن رؤوس إخراج متعددة مستقلة مدربة على عينات تمهيد مختلفة لالتقاط عدم اليقين في تنبؤات القيمة.

📖

المصطلحات

الاستكشاف القائم على عدم اليقين

استراتيجية استكشاف تستخدم تقديرات التمهيد (bootstrap) لتحديد عدم اليقين وتوجيه الوكيل نحو الحالات الأقل معرفة في البيئة.

📖

المصطلحات

مجموعات التمهيد (Bootstrap)

طريقة تدرب نماذج متعددة على عينات تمهيد مختلفة لتشكيل مجموعة تنبؤية تلتقط التباين وعدم اليقين في عملية التعلم.

📖

المصطلحات

الانسحاب (Dropout) كتقريب للتمهيد (Bootstrap)

تقنية تستخدم الانسحاب (dropout) أثناء الاستدلال كتقريب فعال للتمهيد (bootstrap) لتقدير عدم اليقين بسرعة دون تدريب نماذج متعددة.

📖

المصطلحات

فترات المصداقية

فترات إحصائية مشتقة من توزيعات التمهيد (bootstrap) تحدد عدم اليقين بشأن تقديرات القيمة باحتمالية ثقة محددة.

📖

المصطلحات

تباين التمهيد (Bootstrap)

مقياس يحدد تشتت تقديرات التمهيد (bootstrap) فيما بينها، ويعمل كمؤشر مباشر لعدم اليقين المعرفي في تنبؤات القيمة.

📖

المصطلحات

تحيز التمهيد (Bootstrap)

انحراف منهجي قد تُدخله طرق التمهيد (bootstrap)، ويتطلب تقنيات تصحيح مثل التمهيد المزدوج (double bootstrap) للحصول على تقديرات غير متحيزة.

📖

المصطلحات

التمهيد التسلسلي (Sequential Bootstrap)

متغير مكيف لبيانات التعلم المعزز (RL) الزمنية يحافظ على بنية التبعية التسلسلية أثناء إعادة أخذ العينات لتجنب التقليل من تقدير عدم اليقين.

قاموس الذكاء الاصطناعي

التمهيد في التعلم المعزز (RL)

توزيع قيمة التمهيد

التمهيد الموزون

التعلم Q مع التمهيد

C51 (فئوي 51)

IQN (شبكات الكميات الضمنية)

QR-DQN (DQN الانحدار الكمي)

شبكات رأس التمهيد

الاستكشاف القائم على عدم اليقين

مجموعات التمهيد (Bootstrap)

الانسحاب (Dropout) كتقريب للتمهيد (Bootstrap)

فترات المصداقية

تباين التمهيد (Bootstrap)

تحيز التمهيد (Bootstrap)

التمهيد التسلسلي (Sequential Bootstrap)

لم يتم العثور على نتائج