রিইনফোর্সমেন্ট লার্নিং দ্বারা অপ্টিমাইজেশন
মাল্টি-আর্মড ব্যান্ডিট
একটি সরলীকৃত অনুক্রমিক অপ্টিমাইজেশন সমস্যা যেখানে এজেন্টকে অজানা পুরস্কার সহ একাধিক বিকল্পের মধ্যে নির্বাচন করতে হয়। অপ্টিমাইজেশন প্রসঙ্গে অন্বেষণ-শোষণ বোঝার জন্য মৌলিক।
← ফিরে যান