Q-learning
ডাবল Q-লার্নিং
Q-লার্নিং এর একটি বৈকল্পিক যা ক্রিয়া নির্বাচন এবং এর মূল্যায়ন আলাদা করে অতিমূল্যায়নের পক্ষপাত হ্রাস করতে দুটি Q ফাংশন ব্যবহার করে।
← ফিরে যানQ-লার্নিং এর একটি বৈকল্পিক যা ক্রিয়া নির্বাচন এবং এর মূল্যায়ন আলাদা করে অতিমূল্যায়নের পক্ষপাত হ্রাস করতে দুটি Q ফাংশন ব্যবহার করে।
← ফিরে যান