কল্পনাশক্তি দ্বারা শেখা
মডেল নির্দেশিত অনুসন্ধান
সবচেয়ে প্রতিশ্রুতিশীল ক্রিয়াগুলি চিহ্নিত করতে অভ্যন্তরীণ মডেলের পূর্বাভাস ব্যবহার করে অনুসন্ধান কৌশল। এজেন্ট উচ্চ অনিশ্চয়তা বা উচ্চ পুরস্কার সম্ভাবনা সহ রাজ্যগুলির দিকে নিয়ে যাওয়া সিমুলেশনগুলিকে অগ্রাধিকার দেয়।
← ফিরে যান