गहरा निर्धारक नीति ढाल (DDPG)
तंत्रिका नेटवर्क फ़ंक्शन अनुमान
रीइन्फोर्समेंट लर्निंग में नीतियों या मूल्य फ़ंक्शन जैसे जटिल फ़ंक्शन का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग।
← पीछेरीइन्फोर्समेंट लर्निंग में नीतियों या मूल्य फ़ंक्शन जैसे जटिल फ़ंक्शन का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग।
← पीछे