Q-learning
মার্কভ সিদ্ধান্ত প্রক্রিয়া
ক্রমিক সিদ্ধান্ত সমস্যা মডেল করার জন্য গাণিতিক কাঠামো যেখানে ভবিষ্যত অবস্থা শুধুমাত্র বর্তমান অবস্থা এবং কর্মের উপর নির্ভর করে, মার্কভ বৈশিষ্ট্য মেনে চলে।
← ফিরে যান