এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
কনটেক্সচুয়াল ব্যান্ডিট
একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা পর্যবেক্ষিত কনটেক্সটের ভিত্তিতে সর্বোত্তম কর্ম নির্বাচন করে ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য।
এক্সপ্লোরেশন বনাম এক্সপ্লয়টেশন
মৌলিক দ্বিধা যেখানে অ্যালগরিদমকে নতুন বিকল্প আবিষ্কার এবং পরিচিত কার্যকর বিকল্পগুলির ব্যবহারের মধ্যে ভারসাম্য বজায় রাখতে হয়।
আপার কনফিডেন্স বাউন্ড (ইউসিবি)
একটি কৌশল যা প্রত্যাশিত পুরস্কারের আত্মবিশ্বাসের উপরের সীমার ভিত্তিতে বাহু নির্বাচন করে, অনিশ্চিত কর্মের অন্বেষণকে উৎসাহিত করে।
থম্পসন স্যাম্পলিং
একটি বেইজিয়ান অ্যালগরিদম যা তাদের পোস্টেরিয়র ডিস্ট্রিবিউশন থেকে পুরস্কার প্যারামিটার নমুনা করে সম্ভাব্য সিদ্ধান্ত নেওয়ার জন্য।
লিনইউসিবি
ইউসিবির একটি এক্সটেনশন যা প্রত্যাশিত পুরস্কারকে কনটেক্সটের একটি লিনিয়ার ফাংশন হিসেবে মডেল করে, উচ্চ-মাত্রিক কনটেক্সট স্পেসের জন্য উপযুক্ত।
কনটেক্সট ফিচার্স
বর্ণনামূলক ভেরিয়েবল যা পরিবেশের বর্তমান অবস্থা চিহ্নিত করে এবং কনটেক্সচুয়াল ব্যান্ডিটে কর্মের সর্বোত্তম পছন্দকে প্রভাবিত করে।
রিগ্রেট মিনিমাইজেশন
লক্ষ্য হল প্রাপ্ত ক্রমবর্ধমান পুরস্কার এবং সর্বোত্তম নীতির মধ্যে পার্থক্য কমানো, যা অ্যালগরিদমের কর্মক্ষমতা পরিমাপ করে।
মাল্টি-আর্মড ব্যান্ডিটস
একটি মৌলিক সমস্যা যেখানে একজন এজেন্টকে অজানা পুরস্কার বন্টন সহ একাধিক বিকল্প (বাহু) থেকে নির্বাচন করতে হয় লাভ সর্বাধিক করার জন্য।
পুরস্কার ফাংশন
একটি নির্দিষ্ট প্রসঙ্গে কোনো কর্ম সম্পাদনের পর তাৎক্ষণিক প্রতিদান পরিমাপক গাণিতিক ফাংশন, যা অ্যালগরিদমের শিক্ষণ প্রক্রিয়াকে নির্দেশনা দেয়।
বাহু নির্বাচন
বর্তমান পুরস্কার অনুমান এবং পর্যবেক্ষিত প্রসঙ্গের ভিত্তিতে উপলব্ধ বিকল্পগুলির মধ্য থেকে সর্বোত্তম কর্ম নির্বাচনের প্রক্রিয়া।
প্রত্যাশিত পুরস্কার
একটি নির্দিষ্ট প্রসঙ্গে প্রদত্ত কর্মের জন্য প্রত্যাশিত গড় পুরস্কার মান, যা ঐতিহাসিক পর্যবেক্ষণ থেকে গণনা করা হয়।
কর্ম-মূল্য ফাংশন
Q(a,x) ফাংশন যা 'x' প্রসঙ্গে 'a' কর্ম নেওয়ার পর ভবিষ্যত প্রত্যাশিত পুরস্কার অনুমান করে, নীতিমালা মূল্যায়নের জন্য মৌলিক।
অনলাইন শিক্ষণ
শিক্ষণের একটি প্যারাডাইম যেখানে নতুন ডেটা আসার সাথে সাথে মডেলটি ক্রমাগত সামঞ্জস্য হয়, সম্পূর্ণ পুনঃপ্রশিক্ষণের প্রয়োজন ছাড়াই।
স্টোকাস্টিক প্রাসঙ্গিক ব্যান্ডিট
একটি প্রকরণ যেখানে প্রতিটি প্রসঙ্গ-কর্ম জোড়ার জন্য পুরস্কারগুলি স্বাধীন এবং অভিন্নভাবে বিতরণকৃত স্টোকাস্টিক বন্টন অনুসরণ করে।
নিউরাল ব্যান্ডিট
মান ফাংশন বা নীতিমালা আনুমানিক করার জন্য নিউরাল নেটওয়ার্ক ব্যবহারকারী পদ্ধতি, যা জটিল অ-রৈখিক সম্পর্ক ধারণ করতে সক্ষম।