এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মন্টে কার্লো পদ্ধতি
রূপান্তর মডেলের প্রয়োজন ছাড়াই রাজ্য বা কর্মের মান অনুমান করার জন্য সম্পূর্ণ পর্বের নমুনা ভিত্তিক শক্তিশালীকরণ শিক্ষার কৌশল।
সম্পূর্ণ পর্ব
রাজ্য, কর্ম এবং পুরস্কারের ক্রম যা একটি টার্মিনাল রাজ্যে পৌঁছালে শেষ হয়, মন্টে কার্লো শিক্ষার জন্য ক্রমবর্ধমান রিটার্ন গণনা করতে সক্ষম করে।
অফ-পলিসি অনুমান
মন্টে কার্লো পদ্ধতি যেখানে মূল্যায়ন নীতি লক্ষ্য নীতি থেকে ভিন্ন, বন্টন পক্ষপাত সংশোধনের জন্য গুরুত্ব নমুনা কৌশল প্রয়োজন।
অন-পলিসি অনুমান
মন্টে কার্লো পদ্ধতি যেখানে ডেটা একই নীতি অনুসরণ করে তৈরি হয় যা মূল্যায়ন করা হচ্ছে, শিক্ষা প্রক্রিয়া সরলীকরণ করে।
প্রথম পরিদর্শন (ফার্স্ট-ভিজিট এমসি)
মন্টে কার্লো বৈকল্পিক যেখানে একটি পর্বে প্রতিটি রাজ্যের প্রথম সংঘটনই তার রাজ্য মান আপডেটে অবদান রাখে।
প্রতিটি পরিদর্শন (এভরি-ভিজিট এমসি)
মন্টে কার্লো বৈকল্পিক যেখানে একটি পর্বে একটি রাজ্যের প্রতিটি সংঘটন তার রাজ্য মান আপডেটে অবদান রাখে, সাধারণত অনুশীলনে আরও কার্যকর।
সাধারণ গুরুত্ব নমুনা
গুরুত্ব নমুনা পদ্ধতি যেখানে ওজন প্রতিটি ধাপে সম্ভাব্যতা অনুপাতের গুণফল, যা উচ্চ প্রকরণ সৃষ্টি করতে পারে।
ওজনযুক্ত গুরুত্ব নমুনা
গুরুত্ব নমুনার বৈকল্পিক যা প্রকরণ কমাতে ওজন স্বাভাবিক করে, পক্ষপাত-প্রকরণের আরও ভাল সমঝোতা প্রদান করে।
অন্বেষণমূলক প্রারম্ভিক অবস্থা
একটি কৌশল যা প্রতিটি পর্ব একটি এলোমেলোভাবে নির্বাচিত অবস্থা থেকে শুরু করে নিশ্চিত করে যে সমস্ত অবস্থা-জোড়া অসীম সংখ্যক বার পরিদর্শন করা হয়।
জিএলআইই
অনুকূল নীতির দিকে অভিসৃতি নিশ্চিতকারী বৈশিষ্ট্য: অসীম অন্বেষণের সীমায় লোভী, যা হ্রাসমান অন্বেষণ এবং বৃদ্ধিশীল ব্যবহারকে একত্রিত করে।
প্রত্যাবর্তন
একটি প্রদত্ত অবস্থা থেকে পর্বের শেষ পর্যন্ত ভবিষ্যতের ছাড়কৃত পুরস্কারের সমষ্টি, মন্টে কার্লো পদ্ধতিতে মান অনুমান করতে ব্যবহৃত হয়।
ছাড়কৃত ফ্যাক্টর
গামা (γ) পরামিতি [0,1] মধ্যে যা ভবিষ্যতের পুরস্কারের গুরুত্ব ওজন করে, প্রত্যাবর্তন গণনায় এজেন্টের সময়সীমা নিয়ন্ত্রণ করে।
অবস্থান মান ফাংশন
একটি প্রদত্ত অবস্থা থেকে শুরু করে এবং একটি নির্দিষ্ট নীতি অনুসরণ করে প্রত্যাশিত প্রত্যাবর্তনের অনুমান, মন্টে কার্লো কাঠামোতে Vπ(s) হিসাবে চিহ্নিত।
ক্রিয়া মান ফাংশন
একটি প্রদত্ত অবস্থায় একটি ক্রিয়া নেওয়ার পরে এবং তারপর একটি নির্দিষ্ট নীতি অনুসরণ করে প্রত্যাশিত প্রত্যাবর্তনের অনুমান, Qπ(s,a) হিসাবে চিহ্নিত।
বন্টন পক্ষপাত
গুরুত্ব নমুনায়নে সমস্যা যেখানে নমুনার বন্টন লক্ষ্য বন্টনের সাথে মেলে না, সংশোধন কৌশল প্রয়োজন।
অনুমান প্রকরণ
পর্বের স্টোকাস্টিক নমুনাকরণের কারণে মন্টে কার্লো অনুমানের পরিবর্তনশীলতার পরিমাপ, যা অভিসৃতির গতি প্রভাবিত করে।