बैच कंस्ट्रेंड क्यू-लर्निंग (BCQ)
अनिश्चितता अनुमान
बैच में न देखी गई एक्शन के वैल्यू एस्टीमेशन से जुड़ी अनिश्चितता की मात्रात्मक माप। अनिश्चितता का सटीक अनुमान डिस्ट्रीब्यूशन से बाहर की एक्शन को दंडित करने और रोबस्टनेस सुधारने की अनुमति देता है।
← पीछे