ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO)
কনজুগেট গ্রেডিয়েন্ট
একটি পুনরাবৃত্তিমূলক অপ্টিমাইজেশন অ্যালগরিদম যা TRPO-তে প্রাকৃতিক গ্রেডিয়েন্ট অবতরণ দিকের রৈখিক সিস্টেমগুলি দক্ষতার সাথে সমাধান করতে ব্যবহৃত হয়।
← ফিরে যান