Policy Gradient Methods
অ্যাক্টর-ক্রিটিক পদ্ধতি
একটি হাইব্রিড পদ্ধতি যা একটি অ্যাক্টর (যে পলিসি শেখে) এবং একটি ক্রিটিক (যে মান ফাংশন অনুমান করে) একত্রিত করে, পলিসি গ্রেডিয়েন্ট অনুমানের ভ্যারিয়েন্স হ্রাস করে।
← ফিরে যান