মন্টে কার্লো পদ্ধতি

📖

শব্দ

রূপান্তর মডেলের প্রয়োজন ছাড়াই রাজ্য বা কর্মের মান অনুমান করার জন্য সম্পূর্ণ পর্বের নমুনা ভিত্তিক শক্তিশালীকরণ শিক্ষার কৌশল।

📖

শব্দ

সম্পূর্ণ পর্ব

রাজ্য, কর্ম এবং পুরস্কারের ক্রম যা একটি টার্মিনাল রাজ্যে পৌঁছালে শেষ হয়, মন্টে কার্লো শিক্ষার জন্য ক্রমবর্ধমান রিটার্ন গণনা করতে সক্ষম করে।

📖

শব্দ

অফ-পলিসি অনুমান

মন্টে কার্লো পদ্ধতি যেখানে মূল্যায়ন নীতি লক্ষ্য নীতি থেকে ভিন্ন, বন্টন পক্ষপাত সংশোধনের জন্য গুরুত্ব নমুনা কৌশল প্রয়োজন।

📖

শব্দ

অন-পলিসি অনুমান

মন্টে কার্লো পদ্ধতি যেখানে ডেটা একই নীতি অনুসরণ করে তৈরি হয় যা মূল্যায়ন করা হচ্ছে, শিক্ষা প্রক্রিয়া সরলীকরণ করে।

📖

শব্দ

প্রথম পরিদর্শন (ফার্স্ট-ভিজিট এমসি)

মন্টে কার্লো বৈকল্পিক যেখানে একটি পর্বে প্রতিটি রাজ্যের প্রথম সংঘটনই তার রাজ্য মান আপডেটে অবদান রাখে।

📖

শব্দ

প্রতিটি পরিদর্শন (এভরি-ভিজিট এমসি)

মন্টে কার্লো বৈকল্পিক যেখানে একটি পর্বে একটি রাজ্যের প্রতিটি সংঘটন তার রাজ্য মান আপডেটে অবদান রাখে, সাধারণত অনুশীলনে আরও কার্যকর।

📖

শব্দ

সাধারণ গুরুত্ব নমুনা

গুরুত্ব নমুনা পদ্ধতি যেখানে ওজন প্রতিটি ধাপে সম্ভাব্যতা অনুপাতের গুণফল, যা উচ্চ প্রকরণ সৃষ্টি করতে পারে।

📖

শব্দ

ওজনযুক্ত গুরুত্ব নমুনা

গুরুত্ব নমুনার বৈকল্পিক যা প্রকরণ কমাতে ওজন স্বাভাবিক করে, পক্ষপাত-প্রকরণের আরও ভাল সমঝোতা প্রদান করে।

📖

শব্দ

অন্বেষণমূলক প্রারম্ভিক অবস্থা

একটি কৌশল যা প্রতিটি পর্ব একটি এলোমেলোভাবে নির্বাচিত অবস্থা থেকে শুরু করে নিশ্চিত করে যে সমস্ত অবস্থা-জোড়া অসীম সংখ্যক বার পরিদর্শন করা হয়।

📖

শব্দ

জিএলআইই

অনুকূল নীতির দিকে অভিসৃতি নিশ্চিতকারী বৈশিষ্ট্য: অসীম অন্বেষণের সীমায় লোভী, যা হ্রাসমান অন্বেষণ এবং বৃদ্ধিশীল ব্যবহারকে একত্রিত করে।

📖

শব্দ

প্রত্যাবর্তন

একটি প্রদত্ত অবস্থা থেকে পর্বের শেষ পর্যন্ত ভবিষ্যতের ছাড়কৃত পুরস্কারের সমষ্টি, মন্টে কার্লো পদ্ধতিতে মান অনুমান করতে ব্যবহৃত হয়।

📖

শব্দ

ছাড়কৃত ফ্যাক্টর

গামা (γ) পরামিতি [0,1] মধ্যে যা ভবিষ্যতের পুরস্কারের গুরুত্ব ওজন করে, প্রত্যাবর্তন গণনায় এজেন্টের সময়সীমা নিয়ন্ত্রণ করে।

📖

শব্দ

অবস্থান মান ফাংশন

একটি প্রদত্ত অবস্থা থেকে শুরু করে এবং একটি নির্দিষ্ট নীতি অনুসরণ করে প্রত্যাশিত প্রত্যাবর্তনের অনুমান, মন্টে কার্লো কাঠামোতে Vπ(s) হিসাবে চিহ্নিত।

📖

শব্দ

ক্রিয়া মান ফাংশন

একটি প্রদত্ত অবস্থায় একটি ক্রিয়া নেওয়ার পরে এবং তারপর একটি নির্দিষ্ট নীতি অনুসরণ করে প্রত্যাশিত প্রত্যাবর্তনের অনুমান, Qπ(s,a) হিসাবে চিহ্নিত।

📖

শব্দ

বন্টন পক্ষপাত

গুরুত্ব নমুনায়নে সমস্যা যেখানে নমুনার বন্টন লক্ষ্য বন্টনের সাথে মেলে না, সংশোধন কৌশল প্রয়োজন।

📖

শব্দ

অনুমান প্রকরণ

পর্বের স্টোকাস্টিক নমুনাকরণের কারণে মন্টে কার্লো অনুমানের পরিবর্তনশীলতার পরিমাপ, যা অভিসৃতির গতি প্রভাবিত করে।

এআই গ্লসারি