बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
डिस्ट्रीब्यूशन शिफ्ट
ऐसी घटना जहां सीखी गई नीति द्वारा देखे गए स्टेट-एक्शन के वितरण ऑफ़लाइन डेटासेट के वितरण से काफी भिन्न होते हैं। यह बदलाव तैनाती के दौरान पक्षपाती मूल्य अनुमान और खराब प्रदर्शन का कारण बन सकता है।
← पीछे