মাল্টি-অবজেক্টিভ ইভোলিউশনারি অপ্টিমাইজেশন
মাল্টি-অবজেক্টিভ পলিসি গ্রেডিয়েন্ট
একটি রিইনফোর্সমেন্ট লার্নিং পদ্ধতি যা স্টোকাস্টিক গ্রেডিয়েন্ট টেকনিক ব্যবহার করে মাল্টি-অবজেক্টিভ রিওয়ার্ড ভেক্টর সর্বাধিক করার জন্য সরাসরি পলিসি প্যারামিটার অপ্টিমাইজ করে।
← ফিরে যান