Policy Gradient Methods
রিইনফোর্স অ্যালগরিদম
পলিসি গ্রেডিয়েন্টের মৌলিক অ্যালগরিদম যা সম্পূর্ণরূপে পর্যবেক্ষিত এপিসোড অনুযায়ী পলিসি প্যারামিটার আপডেট করতে গ্রেডিয়েন্টের মন্টে কার্লো অনুমান ব্যবহার করে।
← ফিরে যান