मॉडल-आधारित गहन प्रबलित सीख
Trajectory Optimization
मॉडल के ग्रेडिएंट का उपयोग करके इष्टतम ट्रैजेक्टरीज़ खोजने के लिए अवस्था-क्रिया अनुक्रमों का प्रत्यक्ष अनुकूलन, विशेष रूप से निरंतर प्रणालियों के लिए प्रभावी।
← पीछे