অফলাইন মাল্টি-টাস্ক রিইনফোর্সমেন্ট লার্নিং
কনজারভেটিভ মাল্টি-টাস্ক পলিসি অপ্টিমাইজেশন
একটি পদ্ধতি যা নিশ্চিত করে যে মাল্টি-টাস্ক নীতিগুলি ব্যাচ ডেটাসেটে পর্যবেক্ষিত আচরণ থেকে উল্লেখযোগ্যভাবে বিচ্যুত হবে না, সাপোর্টের বাইরের বিতরণ এড়ানোর জন্য।
← ফিরে যান