रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन
डीप Q-नेटवर्क
गहरे तंत्रिका नेटवर्क आर्किटेक्चर जिसका उपयोग जटिल राज्य स्थानों में Q फ़ंक्शन का अनुमान लगाने के लिए किया जाता है, गहरी सीख और Q-लर्निंग को जोड़ता है।
← पीछे