এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
স্টোকাস্টিক মার্কভ ডিসিশন প্রসেস
এমডিপি যেখানে ট্রানজিশন এবং রিওয়ার্ডসমূহ সম্ভাব্যতা বন্টন অনুসরণ করে, যা পরিবেশগত অনিশ্চয়তা মডেল করে।
RL-এ মন্টে কার্লো পদ্ধতি
স্টোকাস্টিক পরিবেশে অবস্থা-ক্রিয়া মান অনুমান করতে পুনরাবৃত্ত এলোমেলো নমুনা ব্যবহার করে অ্যালগরিদম।
স্টোকাস্টিক পলিসি
ডিটারমিনিস্টিক কর্মের পরিবর্তে কর্মের উপর সম্ভাব্যতা বন্টন ফেরত দেওয়ার কৌশল।
বায়েসিয়ান রিইনফোর্সমেন্ট লার্নিং
মডেল প্যারামিটারের অনিশ্চয়তা মোকাবেলায় সম্ভাব্যতা বন্টন ব্যবহার করে এমন পদ্ধতি।
স্টোকাস্টিক মাল্টি-আর্মড ব্যান্ডিট
একটি অন্বেষণ-ব্যবহার সমস্যা যেখানে প্রতিটি বাহুর অজানা স্টোকাস্টিক পুরস্কার বন্টন রয়েছে।
RL-এ বুটস্ট্র্যাপ পদ্ধতি
মান অনুমানের অনিশ্চয়তা পরিমাপের জন্য পুনঃনমুনায়ন কৌশল।
রিইনফোর্সমেন্ট লার্নিং-এ গাউসিয়ান প্রসেস
মান বা ট্রানজিশন ফাংশনে অনিশ্চয়তা মডেল করতে গাউসিয়ান প্রসেসের ব্যবহার।
স্টোকাস্টিক RL-তে এনসেম্বল পদ্ধতি
শেখার মধ্যে এপিস্টেমিক অনিশ্চয়তা ক্যাপচার করার জন্য একাধিক অনুমানকারীর সংমিশ্রণ।
ডিস্ট্রিবিউশনাল রিইনফোর্সমেন্ট লার্নিং
রিটার্নের সম্পূর্ণ ডিস্ট্রিবিউশন শেখা, শুধুমাত্র তাদের গাণিতিক প্রত্যাশা নয়।
কোয়ান্টাইল রিগ্রেশন ডিআরএল
অনিশ্চয়তা মডেল করার জন্য কোয়ান্টাইল রিগ্রেশন ব্যবহার করে ডিস্ট্রিবিউশনাল আরএল-এর একটি নির্দিষ্ট পদ্ধতি।
স্টোকাস্টিক আংশিক পর্যবেক্ষণযোগ্য MDP
আংশিক পর্যবেক্ষণের সাথে স্টোকাস্টিক MDP-এর সম্প্রসারণ, যা অবস্থার অনিশ্চয়তা বৃদ্ধি করে।
RL-এ স্টোকাস্টিক অপ্টিমাইজেশন
গ্রেডিয়েন্ট এবং আপডেটে শব্দ এবং অনিশ্চয়তা বিবেচনায় নেওয়া অপ্টিমাইজেশন পদ্ধতি।