অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
পলিসি গ্রেডিয়েন্ট অ্যালগরিদম
একটি অপ্টিমাইজেশন পদ্ধতি যা প্রত্যাশিত পুরস্কারের গ্রেডিয়েন্ট অনুসরণ করে সরাসরি পলিসির প্যারামিটারগুলি সামঞ্জস্য করে।
← ফিরে যান