অ্যাক্টর-ক্রিটিক পদ্ধতি
সমালোচক নেটওয়ার্ক
একটি নিউরাল নেটওয়ার্ক যা V(s) বা Q(s,a) মান ফাংশন অনুমান করে অভিনেতাকে TD শেখার সংকেত প্রদান করে, অপ্টিমাইজেশন গ্রেডিয়েন্ট হিসেবে প্রেডিকশন ত্রুটি ব্যবহার করে।
← ফিরে যান