संदर्भगत बैंडिट्स
पुरस्कार फलन
किसी दिए गए संदर्भ में एक कार्रवाई करने के बाद प्राप्त तात्कालिक रिटर्न को मात्रात्मक रूप से मापने वाला गणितीय फलन, जो एल्गोरिदम के अधिगम का मार्गदर्शन करता है।
← पीछे