निरंतर बहु-उद्देश्य प्रबलित अधिगम
वेक्टर रिवार्ड फंक्शन
एक रिवार्ड फंक्शन जो एक स्केलर के बजाय रिवार्ड्स का एक वेक्टर लौटाता है, जो रीइन्फोर्समेंट लर्निंग में कई संघर्षशील उद्देश्यों को एक साथ कैप्चर करने की अनुमति देता है।
← पीछे