एक्टर-क्रिटिक विधियाँ
डीप डिटर्मिनिस्टिक पॉलिसी ग्रेडिएंट
निरंतर एक्शन स्पेस के लिए एक्टर-क्रिटिक एल्गोरिदम जो डीप न्यूरल नेटवर्क का उपयोग करता है, जिसमें डिटर्मिनिस्टिक पॉलिसी और स्थिर ऑफ-पॉलिसी सीखने के लिए रिप्ले बफ़र होता है।
← पीछे