অপ্টিমাইজেশনের জন্য রিইনফোর্সমেন্ট লার্নিং
অ্যাক্টর-ক্রিটিক অ্যালগরিদম
একটি আর্কিটেকচার যা একটি অ্যাক্টর (যা পলিসি অনুযায়ী অ্যাকশন নির্বাচন করে) এবং একটি ক্রিটিক (যা এই অ্যাকশনগুলির মূল্যায়ন করে) একত্রিত করে, আরও স্থিতিশীল এবং দক্ষ শেখার সুবিধা দেয়।
← ফিরে যান