قاموس الذكاء الاصطناعي
القاموس الكامل للذكاء الاصطناعي
الممثل-الناقد
بنية تعزيز التعلم تجمع بين شبكة الممثل التي تتعلم سياسة عشوائية وشبكة الناقد التي تقدر دالة القيمة لتقليل تباين تدرج السياسة
دالة القيمة
دالة رياضية تقدر العائد المتراكم المتوقع من حالة أو زوج حالة-إجراء، وتعمل كإشارة تعلم للناقد في بنية الممثل-الناقد
الممثل-الناقد ذو الميزة غير المتزامن
بنية موزعة حيث يتدرب عدة وكلاء بالتوازي على بيئات مستقلة، ويشاركون تدرجاتهم بشكل دوري لتسريع التعلم
تدرج السياسة الحتمية العميقة
خوارزمية الممثل-الناقد لمساحات الإجراء المستمرة تستخدم شبكات عصبية عميقة مع سياسة حتمية ومخزن إعادة التشغيل للتعلم المستقر خارج السياسة
تدرج السياسة الحتمية العميقة المزدوجة المؤجل
تحسين DDPG يستخدم ناقدين توأمين لتقليل المبالغة في تقدير القيمة وتحديثات مؤجلة للممثل والأهداف لاستقرار أفضل
الممثل-الناقد الناعم
خوارزمية الممثل-الناقد التي تزيد من المكافأة الانتروبية تجمع بين العائد والإنتروبيا لتشجيع الاستكشاف، باستخدام تحديثات مستقرة وفعالة خارج السياسة
الممثل-الناقد ذو الميزة
متغير متزامن من A3C يستخدم تقدير الميزة لتقليل تباين تدرج السياسة، مع تحديثات دفعة لاستقرار أفضل على GPU
شبكة الناقد
شبكة عصبية تقدر دالة القيمة V(s) أو Q(s,a) لتوفير إشارة التعلم TD للممثل، باستخدام خطأ التنبؤ كتدرج تحسين