ডিপ আরএল মাল্টি-অবজেক্টিভস
ভেক্টর রিওয়ার্ড
পুরস্কারের একটি কাঠামো যেখানে একটি অবস্থায় প্রতিটি কর্ম একটি একক স্কেলার মানের পরিবর্তে পুরস্কারের একটি ভেক্টর তৈরি করে। ভেক্টরের প্রতিটি উপাদান সমস্যার একটি নির্দিষ্ট উদ্দেশ্যে অগ্রগতির সাথে সম্পর্কিত।
← ফিরে যান