ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)
মান ফাংশন অনুমান
অফলাইন ডেটা থেকে Q-মান অনুমানের প্রক্রিয়া, যেখানে অন্বেষণের অনুপস্থিতির কারণে সম্ভাব্য পক্ষপাত বিবেচনা করা হয়। আধুনিক পদ্ধতিগুলি অতিরিক্ত অপ্টিমাইজেশন এড়াতে রক্ষণশীল অবমূল্যায়ন কৌশল ব্যবহার করে।
← ফিরে যান