प्रक्षेपवक्र भविष्यवाणी द्वारा सीखना
सिमुलेशन द्वारा अन्वेषण
एक अन्वेषण रणनीति जहां एजेंट वास्तव में सबसे अधिक आशाजनक नीतियों का परीक्षण करने से पहले अपने मॉडल में परिदृश्यों का व्यापक रूप से अनुकरण करके नई नीतियों की खोज करता है।
← पीछे