बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
इम्प्लिसिट क्यू-लर्निंग
वह विधि जो आउट-ऑफ-डिस्ट्रीब्यूशन एक्शन के सीधे मूल्यांकन से बचकर क्यू फ़ंक्शन को अंतर्निहित रूप से सीखती है। IQL ऑफ़लाइन डेटा में अनिश्चितता को बेहतर ढंग से प्रबंधित करने के लिए सीखने को एक एक्सपेक्टाइल लर्निंग समस्या के रूप में तैयार करता है।
← पीछे