অ্যাক্টর-ক্রিটিক পদ্ধতি
ডিপ ডিটারমিনিস্টিক পলিসি গ্রেডিয়েন্ট
অবিচ্ছিন্ন অ্যাকশন স্পেসের জন্য একটি অভিনেতা-সমালোচক অ্যালগরিদম যা স্থিতিশীল অফ-পলিসি শেখার জন্য ডিপ নিউরাল নেটওয়ার্ক, ডিটারমিনিস্টিক পলিসি এবং রিপ্লে বাফার ব্যবহার করে।
← ফিরে যান