মানের ফ্যাক্টরাইজেশন
সুবিধা
একটি নির্দিষ্ট অবস্থায় সম্ভাব্য কর্মগুলির গড়ের তুলনায় একটি কর্ম কতটা ভালো তা পরিমাপ করে, A(s,a) = Q(s,a) - V(s) হিসাবে সংজ্ঞায়িত।
← ফিরে যানএকটি নির্দিষ্ট অবস্থায় সম্ভাব্য কর্মগুলির গড়ের তুলনায় একটি কর্ম কতটা ভালো তা পরিমাপ করে, A(s,a) = Q(s,a) - V(s) হিসাবে সংজ্ঞায়িত।
← ফিরে যান