ব্যাচ সীমাবদ্ধ Q-লার্নিং (BCQ)
অনিশ্চয়তা অনুমান
ব্যাচে পর্যবেক্ষিত হয়নি এমন ক্রিয়াগুলির মান অনুমানের সাথে সম্পর্কিত অনিশ্চয়তার পরিমাপ। অনিশ্চয়তার সঠিক অনুমান বিতরণের বাইরের ক্রিয়াগুলিকে শাস্তি দেওয়ার এবং দৃঢ়তা উন্নত করার সুযোগ দেয়।
← ফিরে যান