ট্রাস্ট রিজিওন পলিসি অপ্টিমাইজেশন (TRPO) - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

ফিশার ইনফরমেশন ম্যাট্রিক্স

একটি ম্যাট্রিক্স যা একটি পর্যবেক্ষণযোগ্য র্যান্ডম ভেরিয়েবল একটি অজানা প্যারামিটার সম্পর্কে কতটুকু তথ্য বহন করে তা পরিমাপ করে, TRPO-তে প্যারামিটার স্পেসের জ্যামিতি সংজ্ঞায়িত করতে ব্যবহৃত হয়।

📖

শব্দ

KL ডাইভারজেন্স

দুটি সম্ভাব্যতা বন্টনের মধ্যে অমিলের পরিমাপ, TRPO-তে ধারাবাহিক নীতিগুলোর মধ্যে ব্যবধান সীমিত করার জন্য সীমাবদ্ধতা হিসেবে ব্যবহৃত হয়।

📖

শব্দ

কনজুগেট গ্রেডিয়েন্ট

একটি পুনরাবৃত্তিমূলক অপ্টিমাইজেশন অ্যালগরিদম যা TRPO-তে প্রাকৃতিক গ্রেডিয়েন্ট অবতরণ দিকের রৈখিক সিস্টেমগুলি দক্ষতার সাথে সমাধান করতে ব্যবহৃত হয়।

📖

শব্দ

লাইন সার্চ

একটি অপ্টিমাইজেশন পদ্ধতি যা ধাপের আকার সামঞ্জস্য করে নিশ্চিত করে যে আপডেটটি TRPO-তে আস্থার অঞ্চলের সীমাবদ্ধতাগুলি মেনে চলে।

📖

শব্দ

মনোটোনিক ইম্প্রুভমেন্ট থিওরি

একটি তত্ত্ব যা নিশ্চিত করে যে নির্দিষ্ট আস্থার অঞ্চল শর্তের অধীনে TRPO দিয়ে আপডেট করা একটি নীতি সর্বদা প্রত্যাশিত কর্মক্ষমতা উন্নত বা বজায় রাখে।

📖

শব্দ

রিওয়ার্ড-টু-গো

মান ফাংশনের একটি অনুমানকারী যা গ্রেডিয়েন্ট অনুমানের প্রকরণ কমাতে একটি নির্দিষ্ট টাইমস্টেপের পরে শুধুমাত্র ভবিষ্যত পুরস্কার ব্যবহার করে।

📖

শব্দ

স্যাম্পল এফিসিয়েন্সি

একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদমের সংগৃহীত ডেটা ব্যবহারের দক্ষতার পরিমাপ, TRPO তার ভাল নমুনা দক্ষতার জন্য পরিচিত।

📖

শব্দ

অন-পলিসি লার্নিং

শিক্ষার একটি প্যারাডাইম যেখানে সংগৃহীত ডেটা অবশ্যই বর্তমান নীতি থেকে আসতে হবে, অফ-পলিসি পদ্ধতির বিপরীতে TRPO-এর মৌলিক বৈশিষ্ট্য।

এআই গ্লসারি

ফিশার ইনফরমেশন ম্যাট্রিক্স

KL ডাইভারজেন্স

কনজুগেট গ্রেডিয়েন্ট

লাইন সার্চ

মনোটোনিক ইম্প্রুভমেন্ট থিওরি

রিওয়ার্ড-টু-গো

স্যাম্পল এফিসিয়েন্সি

অন-পলিসি লার্নিং

কোন ফলাফল পাওয়া যায়নি