सुदृढीकरण द्वारा सक्रिय अधिगम
पुरस्कार फ़ंक्शन
एक संकेत जो प्रत्येक नमूना चयन कार्रवाई की उपयोगिता को मात्रात्मक रूप से निर्धारित करता है, जो आमतौर पर मॉडल के प्रदर्शन में सुधार पर आधारित होता है।
← पीछे