সমঝোতার পদ্ধতি
মাল্টি-অবজেক্টিভ কিউ-লার্নিং
ঐতিহ্যগত কিউ-লার্নিং-এর সম্প্রসারণ যেখানে প্রতিটি ক্রিয়ার একটি স্কেলার মানের পরিবর্তে কিউ-মানগুলির একটি ভেক্টর থাকে, যার জন্য ট্রেড-অফগুলির জন্য নির্দিষ্ট অ্যাকশন নির্বাচন মানদণ্ডের প্রয়োজন হয়।
← ফিরে যান