Policy Gradient Methods
এনট্রপি রেগুলারাইজেশন
অত্যধিক নির্ধারিত পলিসিগুলোকে শাস্তি দিয়ে এক্সপ্লোরেশন উৎসাহিত করতে অবজেক্টিভ ফাংশনে এনট্রপি টার্ম যোগ করা, যা শেখার রোবাস্টনেস উন্নত করে।
← ফিরে যান