قاموس الذكاء الاصطناعي

القاموس الكامل للذكاء الاصطناعي

227

الفئات

2,955

الفئات الفرعية

34,512

المصطلحات

📖

المصطلحات

الممثل-الناقد

بنية تعزيز التعلم تجمع بين شبكة الممثل التي تتعلم سياسة عشوائية وشبكة الناقد التي تقدر دالة القيمة لتقليل تباين تدرج السياسة

📖

المصطلحات

دالة القيمة

دالة رياضية تقدر العائد المتراكم المتوقع من حالة أو زوج حالة-إجراء، وتعمل كإشارة تعلم للناقد في بنية الممثل-الناقد

📖

المصطلحات

الممثل-الناقد ذو الميزة غير المتزامن

بنية موزعة حيث يتدرب عدة وكلاء بالتوازي على بيئات مستقلة، ويشاركون تدرجاتهم بشكل دوري لتسريع التعلم

📖

المصطلحات

تدرج السياسة الحتمية العميقة

خوارزمية الممثل-الناقد لمساحات الإجراء المستمرة تستخدم شبكات عصبية عميقة مع سياسة حتمية ومخزن إعادة التشغيل للتعلم المستقر خارج السياسة

📖

المصطلحات

تدرج السياسة الحتمية العميقة المزدوجة المؤجل

تحسين DDPG يستخدم ناقدين توأمين لتقليل المبالغة في تقدير القيمة وتحديثات مؤجلة للممثل والأهداف لاستقرار أفضل

📖

المصطلحات

الممثل-الناقد الناعم

خوارزمية الممثل-الناقد التي تزيد من المكافأة الانتروبية تجمع بين العائد والإنتروبيا لتشجيع الاستكشاف، باستخدام تحديثات مستقرة وفعالة خارج السياسة

📖

المصطلحات

الممثل-الناقد ذو الميزة

متغير متزامن من A3C يستخدم تقدير الميزة لتقليل تباين تدرج السياسة، مع تحديثات دفعة لاستقرار أفضل على GPU

📖

المصطلحات

شبكة الناقد

شبكة عصبية تقدر دالة القيمة V(s) أو Q(s,a) لتوفير إشارة التعلم TD للممثل، باستخدام خطأ التنبؤ كتدرج تحسين

🔍

قاموس الذكاء الاصطناعي

الممثل-الناقد

دالة القيمة

الممثل-الناقد ذو الميزة غير المتزامن

تدرج السياسة الحتمية العميقة

تدرج السياسة الحتمية العميقة المزدوجة المؤجل

الممثل-الناقد الناعم

الممثل-الناقد ذو الميزة

شبكة الناقد

لم يتم العثور على نتائج