सिफारिशों के लिए गहरी सीख
सिफारिशों के लिए सुदृढीकरण अधिगम
लंबी अवधि के इनाम को अनुकूलित करने के लिए सिफारिश को मार्कोव निर्णय प्रक्रिया के रूप में तैयार करने का दृष्टिकोण। RL एजेंट स्थायी उपयोगकर्ता जुड़ाव को अधिकतम करने वाली अनुकूली सिफारिश नीतियां सीखते हैं।
← पीछे