मॉडल-आधारित ऑफ़लाइन RL
कंज़र्वेटिव पॉलिसी ऑप्टिमाइज़ेशन
एक एल्गोरिदम जो एक्सट्रपलेशन त्रुटियों से बचने के लिए प्रशिक्षण डेटा के व्यवहार से महत्वपूर्ण रूप से विचलित होने वाली नीतियों को स्पष्ट रूप से दंडित करता है।
← पीछे