रीइन्फोर्समेंट लर्निंग फॉर ऑप्टिमाइज़ेशन
एक्टर-क्रिटिक एल्गोरिदम
एक आर्किटेक्चर जो एक एक्टर जो पॉलिसी के अनुसार कार्रवाइयों का चयन करता है और एक क्रिटिक जो उन कार्रवाइयों का मूल्यांकन करता है, को जोड़ता है, जिससे अधिक स्थिर और कुशल सीखने की अनुमति मिलती है।
← पीछे