এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
প্রত্যাশিত মান আনুমানিক
RL-এ ঐতিহ্যগত পদ্ধতি যা শুধুমাত্র ভবিষ্যত রিটার্নের গাণিতিক প্রত্যাশা অনুমানের উপর দৃষ্টি নিবদ্ধ করে। এই পদ্ধতি রিটার্নের বন্টনের প্রকরণ এবং উচ্চতর মুহূর্তগুলিকে উপেক্ষা করে।
বেলম্যান বন্টন সমীকরণ
বেলম্যান সমীকরণের সাধারণীকরণ যা স্কেলার মানের পরিবর্তে এলোমেলো বন্টনের উপর কাজ করে। এটি বর্ণনা করে কিভাবে রিটার্নের বন্টন রাজ্য রূপান্তরের মাধ্যমে ছড়িয়ে পড়ে।
ঝুঁকি-সংবেদনশীল নীতি
কর্মের কৌশল যা শুধুমাত্র প্রত্যাশা নয় বরং রিটার্নের বন্টনের প্রকরণ বা অন্যান্য বৈশিষ্ট্যও বিবেচনা করে। উদ্দেশ্যের উপর নির্ভর করে এই নীতিগুলো ঝুঁকি-বিরোধী বা ঝুঁকি-সন্ধানী হতে পারে।
ক্রমবর্ধমান বন্টন ফাংশন
গাণিতিক ফাংশন যা একটি এলোমেলো ভেরিয়েবলের একটি প্রদত্ত থ্রেশহোল্ডের সমান বা কম মান নেওয়ার সম্ভাবনা দেয়। বন্টনমূলক RL-এ, এটি ক্রমবর্ধমান রিটার্নের সম্পূর্ণ বন্টন প্রতিনিধিত্ব করে।
মুহূত্র মিলান
আনুমানিক কৌশল যা লক্ষ্য বন্টনের পরিসংখ্যানগত মুহূর্তগুলি (গড়, প্রকরণ ইত্যাদি) মেলানোর চেষ্টা করে। RL-এ বন্টনের উপস্থাপনা সরলীকরণের জন্য এটি কখনও কখনও ব্যবহৃত হয়।