कल्पना द्वारा सीख
मॉडल-गाइडेड एक्सप्लोरेशन
आंतरिक मॉडल की भविष्यवाणियों का उपयोग करके सबसे आशाजनक क्रियाओं को पहचानने के लिए खोज रणनीति। एजेंट उन सिमुलेशनों को प्राथमिकता देता है जो उच्च अनिश्चितता या उच्च पुरस्कार क्षमता वाले राज्यों की ओर ले जाते हैं।
← पीछे