এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ফিশার ইনফরমেশন ম্যাট্রিক্স
একটি ম্যাট্রিক্স যা একটি পর্যবেক্ষণযোগ্য র্যান্ডম ভেরিয়েবল একটি অজানা প্যারামিটার সম্পর্কে কতটুকু তথ্য বহন করে তা পরিমাপ করে, TRPO-তে প্যারামিটার স্পেসের জ্যামিতি সংজ্ঞায়িত করতে ব্যবহৃত হয়।
KL ডাইভারজেন্স
দুটি সম্ভাব্যতা বন্টনের মধ্যে অমিলের পরিমাপ, TRPO-তে ধারাবাহিক নীতিগুলোর মধ্যে ব্যবধান সীমিত করার জন্য সীমাবদ্ধতা হিসেবে ব্যবহৃত হয়।
কনজুগেট গ্রেডিয়েন্ট
একটি পুনরাবৃত্তিমূলক অপ্টিমাইজেশন অ্যালগরিদম যা TRPO-তে প্রাকৃতিক গ্রেডিয়েন্ট অবতরণ দিকের রৈখিক সিস্টেমগুলি দক্ষতার সাথে সমাধান করতে ব্যবহৃত হয়।
লাইন সার্চ
একটি অপ্টিমাইজেশন পদ্ধতি যা ধাপের আকার সামঞ্জস্য করে নিশ্চিত করে যে আপডেটটি TRPO-তে আস্থার অঞ্চলের সীমাবদ্ধতাগুলি মেনে চলে।
মনোটোনিক ইম্প্রুভমেন্ট থিওরি
একটি তত্ত্ব যা নিশ্চিত করে যে নির্দিষ্ট আস্থার অঞ্চল শর্তের অধীনে TRPO দিয়ে আপডেট করা একটি নীতি সর্বদা প্রত্যাশিত কর্মক্ষমতা উন্নত বা বজায় রাখে।
রিওয়ার্ড-টু-গো
মান ফাংশনের একটি অনুমানকারী যা গ্রেডিয়েন্ট অনুমানের প্রকরণ কমাতে একটি নির্দিষ্ট টাইমস্টেপের পরে শুধুমাত্র ভবিষ্যত পুরস্কার ব্যবহার করে।
স্যাম্পল এফিসিয়েন্সি
একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমের সংগৃহীত ডেটা ব্যবহারের দক্ষতার পরিমাপ, TRPO তার ভাল নমুনা দক্ষতার জন্য পরিচিত।
অন-পলিসি লার্নিং
শিক্ষার একটি প্যারাডাইম যেখানে সংগৃহীত ডেটা অবশ্যই বর্তমান নীতি থেকে আসতে হবে, অফ-পলিসি পদ্ধতির বিপরীতে TRPO-এর মৌলিক বৈশিষ্ট্য।