बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
मॉडल-आधारित RL
ऐसा दृष्टिकोण जो सिंथेटिक एक्सपीरियंस जनरेट करने के लिए ऑफ़लाइन डेटा से एनवायरनमेंट डायनामिक्स का मॉडल सीखता है। ऑफ़लाइन संदर्भ में, एरर प्रोपागेशन से बचने के लिए इस मॉडल का सावधानी से उपयोग किया जाना चाहिए।
← पीछे