Policy Gradient Methods
পলিসি নেটওয়ার্ক
প্যারামিটারাইজড নিউরাল নেটওয়ার্ক যা পলিসি π(a|s; θ) উপস্থাপন করে, বর্তমান অবস্থার উপর শর্তযুক্ত কর্মের সম্ভাব্যতা বন্টন তৈরি করে।
← ফিরে যানপ্যারামিটারাইজড নিউরাল নেটওয়ার্ক যা পলিসি π(a|s; θ) উপস্থাপন করে, বর্তমান অবস্থার উপর শর্তযুক্ত কর্মের সম্ভাব্যতা বন্টন তৈরি করে।
← ফিরে যান