Q-learning
ম্যাক্স অপারেটর
Q-লার্নিং আপডেটে গাণিতিক অপারেশন যা ভবিষ্যতের পুরস্কার অনুমান করার জন্য পরবর্তী অবস্থার সমস্ত সম্ভাব্য ক্রিয়া থেকে সর্বোচ্চ Q মান নির্বাচন করে।
← ফিরে যানQ-লার্নিং আপডেটে গাণিতিক অপারেশন যা ভবিষ্যতের পুরস্কার অনুমান করার জন্য পরবর্তী অবস্থার সমস্ত সম্ভাব্য ক্রিয়া থেকে সর্বোচ্চ Q মান নির্বাচন করে।
← ফিরে যান