बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
वैल्यू फंक्शन एस्टीमेशन
ऑफ़लाइन डेटा से Q वैल्यू का अनुमान लगाने की प्रक्रिया, जो एक्सप्लोरेशन की अनुपस्थिति के कारण संभावित पूर्वाग्रह को ध्यान में रखती है। आधुनिक तरीके ओवर-ऑप्टिमाइजेशन से बचने के लिए कंजर्वेटिव अंडरएस्टीमेशन तकनीकों का उपयोग करते हैं।
← पीछे