টেম্পোরাল ডিফারেন্স শেখা
কিউ-লার্নিং অ্যালগরিদম
একটি অফ-পলিসি টেম্পোরাল ডিফারেন্স (টিডি) পদ্ধতি যা পরবর্তী অবস্থায় সম্ভাব্য সেরা কর্ম ব্যবহার করে সরাসরি সর্বোত্তম মান ফাংশন শেখে, অনুসৃত পলিসির উপর নির্ভর না করে।
← ফিরে যান