ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)
ব্যাচ আরএল
শক্তিশালী শিক্ষণ কাঠামো যেখানে এজেন্টের কাছে একটি নির্দিষ্ট পরিমাণ ট্রানজিশন ডেটা থাকে এবং অতিরিক্ত মিথস্ক্রিয়া ছাড়াই একটি সর্বোত্তম নীতি শিখতে হয়। এই প্রেক্ষাপটে অ্যালগরিদমগুলিকে ডাইভারজেন্স এড়ানোর জন্য নির্দিষ্ট সীমাবদ্ধতা আরোপ করা হয়।
← ফিরে যান