Policy Gradient Methods
एंट्रॉपी रेग्युलराइजेशन
बहुत निर्धारक पॉलिसी को दंडित करके एक्सप्लोरेशन को प्रोत्साहित करने के लिए ऑब्जेक्टिव फंक्शन में एंट्रॉपी के टर्म को जोड़ना, लर्निंग की मजबूती में सुधार।
← पीछे