संदर्भगत बैंडिट्स
क्रिया-मूल्य फलन
फलन Q(a,x) जो संदर्भ 'x' में कार्रवाई 'a' करने पर अपेक्षित भविष्य के पुरस्कार का अनुमान लगाता है, जो नीतियों के मूल्यांकन के लिए मौलिक है।
← पीछेफलन Q(a,x) जो संदर्भ 'x' में कार्रवाई 'a' करने पर अपेक्षित भविष्य के पुरस्कार का अनुमान लगाता है, जो नीतियों के मूल्यांकन के लिए मौलिक है।
← पीछे