قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
التمهيد في التعلم المعزز (RL)
تقنية إعادة أخذ العينات المستخدمة في التعلم المعزز لتقدير عدم اليقين في دوال القيمة عن طريق إنشاء تقديرات متعددة من نفس عينة البيانات.
توزيع قيمة التمهيد
تمثيل احتمالي لدالة القيمة يتم الحصول عليه عن طريق تجميع تقديرات التمهيد المتعددة، مما يسمح بتحديد عدم اليقين في تنبؤات القيمة.
التمهيد الموزون
تقنية تقوم بتعيين أوزان لعينات التمهيد بناءً على مدى ملاءمتها أو حداثتها لإعطاء أهمية أكبر للتجارب الأكثر إفادة في تقدير القيمة.
التعلم Q مع التمهيد
امتداد لتعلم Q الكلاسيكي يستخدم رؤوس قيم Q متعددة مدربة على عينات تمهيد مختلفة لالتقاط عدم اليقين وتحسين الاستكشاف.
C51 (فئوي 51)
خوارزمية توزيعية تقوم بتقسيم توزيع العوائد إلى 51 ذرة احتمالية، باستخدام تقنيات التمهيد لتقدير عدم اليقين في هذا التمثيل.
IQN (شبكات الكميات الضمنية)
بنية شبكة تتعلم مباشرة توزيع الكميات للعوائد، وتدمج آليات التمهيد لتحديد عدم اليقين في تنبؤات الكميات.
QR-DQN (DQN الانحدار الكمي)
متغير من DQN يستخدم الانحدار الكمي على عينات التمهيد لتعلم التوزيع الكامل لقيم الإجراءات مع تحديد عدم اليقين.
شبكات رأس التمهيد
بنية تتضمن رؤوس إخراج متعددة مستقلة مدربة على عينات تمهيد مختلفة لالتقاط عدم اليقين في تنبؤات القيمة.
الاستكشاف القائم على عدم اليقين
استراتيجية استكشاف تستخدم تقديرات التمهيد (bootstrap) لتحديد عدم اليقين وتوجيه الوكيل نحو الحالات الأقل معرفة في البيئة.
مجموعات التمهيد (Bootstrap)
طريقة تدرب نماذج متعددة على عينات تمهيد مختلفة لتشكيل مجموعة تنبؤية تلتقط التباين وعدم اليقين في عملية التعلم.
الانسحاب (Dropout) كتقريب للتمهيد (Bootstrap)
تقنية تستخدم الانسحاب (dropout) أثناء الاستدلال كتقريب فعال للتمهيد (bootstrap) لتقدير عدم اليقين بسرعة دون تدريب نماذج متعددة.
فترات المصداقية
فترات إحصائية مشتقة من توزيعات التمهيد (bootstrap) تحدد عدم اليقين بشأن تقديرات القيمة باحتمالية ثقة محددة.
تباين التمهيد (Bootstrap)
مقياس يحدد تشتت تقديرات التمهيد (bootstrap) فيما بينها، ويعمل كمؤشر مباشر لعدم اليقين المعرفي في تنبؤات القيمة.
تحيز التمهيد (Bootstrap)
انحراف منهجي قد تُدخله طرق التمهيد (bootstrap)، ويتطلب تقنيات تصحيح مثل التمهيد المزدوج (double bootstrap) للحصول على تقديرات غير متحيزة.
التمهيد التسلسلي (Sequential Bootstrap)
متغير مكيف لبيانات التعلم المعزز (RL) الزمنية يحافظ على بنية التبعية التسلسلية أثناء إعادة أخذ العينات لتجنب التقليل من تقدير عدم اليقين.