मॉडल-आधारित गहन प्रबलित सीख
Model-Based Policy Optimization (MBPO)
एक हाइब्रिड एल्गोरिथ्म जो सिंथेटिक डेटा उत्पन्न करने के लिए लघु-परिसर के मॉडल का उपयोग करता है, जबकि नीति सीखने को स्थिर करने के लिए वास्तविक डेटा का एक सेट बनाए रखता है।
← पीछे