एक्टर-क्रिटिक विधियाँ
क्रिटिक नेटवर्क
न्यूरल नेटवर्क जो V(s) या Q(s,a) वैल्यू फंक्शन का अनुमान लगाता है और एक्टर को TD लर्निंग सिग्नल प्रदान करता है, जो प्रेडिक्शन एरर को ऑप्टिमाइजेशन ग्रेडिएंट के रूप में उपयोग करता है।
← पीछे