बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
बैच RL
रिइन्फोर्समेंट लर्निंग का ढांचा जहां एजेंट के पास ट्रांजिशन का एक फिक्स्ड बैच होता है और उसे बिना अतिरिक्त इंटरैक्शन के ऑप्टिमल पॉलिसी सीखनी होती है। यह संदर्भ एल्गोरिदम पर डाइवर्जेंस से बचने के लिए विशिष्ट बाधाएं लगाता है।
← पीछे