অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
মাল্টি-আর্মড ব্যান্ডিট সমস্যা
একটি ক্রমিক অপ্টিমাইজেশন সমস্যা যেখানে একটি এজেন্টকে অজানা পুরস্কার সহ একাধিক বিকল্পের মধ্যে নির্বাচন করতে হয় সময়ের সাথে ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য।
← ফিরে যান