ব্যান্ডিটস কনটেক্সটুয়েল - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

কনটেক্সচুয়াল ব্যান্ডিট

একটি রিইনফোর্সমেন্ট লার্নিং অ্যালগরিদম যা পর্যবেক্ষিত কনটেক্সটের ভিত্তিতে সর্বোত্তম কর্ম নির্বাচন করে ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য।

📖

শব্দ

এক্সপ্লোরেশন বনাম এক্সপ্লয়টেশন

মৌলিক দ্বিধা যেখানে অ্যালগরিদমকে নতুন বিকল্প আবিষ্কার এবং পরিচিত কার্যকর বিকল্পগুলির ব্যবহারের মধ্যে ভারসাম্য বজায় রাখতে হয়।

📖

শব্দ

আপার কনফিডেন্স বাউন্ড (ইউসিবি)

একটি কৌশল যা প্রত্যাশিত পুরস্কারের আত্মবিশ্বাসের উপরের সীমার ভিত্তিতে বাহু নির্বাচন করে, অনিশ্চিত কর্মের অন্বেষণকে উৎসাহিত করে।

📖

শব্দ

থম্পসন স্যাম্পলিং

একটি বেইজিয়ান অ্যালগরিদম যা তাদের পোস্টেরিয়র ডিস্ট্রিবিউশন থেকে পুরস্কার প্যারামিটার নমুনা করে সম্ভাব্য সিদ্ধান্ত নেওয়ার জন্য।

📖

শব্দ

লিনইউসিবি

ইউসিবির একটি এক্সটেনশন যা প্রত্যাশিত পুরস্কারকে কনটেক্সটের একটি লিনিয়ার ফাংশন হিসেবে মডেল করে, উচ্চ-মাত্রিক কনটেক্সট স্পেসের জন্য উপযুক্ত।

📖

শব্দ

কনটেক্সট ফিচার্স

বর্ণনামূলক ভেরিয়েবল যা পরিবেশের বর্তমান অবস্থা চিহ্নিত করে এবং কনটেক্সচুয়াল ব্যান্ডিটে কর্মের সর্বোত্তম পছন্দকে প্রভাবিত করে।

📖

শব্দ

রিগ্রেট মিনিমাইজেশন

লক্ষ্য হল প্রাপ্ত ক্রমবর্ধমান পুরস্কার এবং সর্বোত্তম নীতির মধ্যে পার্থক্য কমানো, যা অ্যালগরিদমের কর্মক্ষমতা পরিমাপ করে।

📖

শব্দ

মাল্টি-আর্মড ব্যান্ডিটস

একটি মৌলিক সমস্যা যেখানে একজন এজেন্টকে অজানা পুরস্কার বন্টন সহ একাধিক বিকল্প (বাহু) থেকে নির্বাচন করতে হয় লাভ সর্বাধিক করার জন্য।

📖

শব্দ

পুরস্কার ফাংশন

একটি নির্দিষ্ট প্রসঙ্গে কোনো কর্ম সম্পাদনের পর তাৎক্ষণিক প্রতিদান পরিমাপক গাণিতিক ফাংশন, যা অ্যালগরিদমের শিক্ষণ প্রক্রিয়াকে নির্দেশনা দেয়।

📖

শব্দ

বাহু নির্বাচন

বর্তমান পুরস্কার অনুমান এবং পর্যবেক্ষিত প্রসঙ্গের ভিত্তিতে উপলব্ধ বিকল্পগুলির মধ্য থেকে সর্বোত্তম কর্ম নির্বাচনের প্রক্রিয়া।

📖

শব্দ

প্রত্যাশিত পুরস্কার

একটি নির্দিষ্ট প্রসঙ্গে প্রদত্ত কর্মের জন্য প্রত্যাশিত গড় পুরস্কার মান, যা ঐতিহাসিক পর্যবেক্ষণ থেকে গণনা করা হয়।

📖

শব্দ

কর্ম-মূল্য ফাংশন

Q(a,x) ফাংশন যা 'x' প্রসঙ্গে 'a' কর্ম নেওয়ার পর ভবিষ্যত প্রত্যাশিত পুরস্কার অনুমান করে, নীতিমালা মূল্যায়নের জন্য মৌলিক।

📖

শব্দ

অনলাইন শিক্ষণ

শিক্ষণের একটি প্যারাডাইম যেখানে নতুন ডেটা আসার সাথে সাথে মডেলটি ক্রমাগত সামঞ্জস্য হয়, সম্পূর্ণ পুনঃপ্রশিক্ষণের প্রয়োজন ছাড়াই।

📖

শব্দ

স্টোকাস্টিক প্রাসঙ্গিক ব্যান্ডিট

একটি প্রকরণ যেখানে প্রতিটি প্রসঙ্গ-কর্ম জোড়ার জন্য পুরস্কারগুলি স্বাধীন এবং অভিন্নভাবে বিতরণকৃত স্টোকাস্টিক বন্টন অনুসরণ করে।

📖

শব্দ

নিউরাল ব্যান্ডিট

মান ফাংশন বা নীতিমালা আনুমানিক করার জন্য নিউরাল নেটওয়ার্ক ব্যবহারকারী পদ্ধতি, যা জটিল অ-রৈখিক সম্পর্ক ধারণ করতে সক্ষম।

এআই গ্লসারি

কনটেক্সচুয়াল ব্যান্ডিট

এক্সপ্লোরেশন বনাম এক্সপ্লয়টেশন

আপার কনফিডেন্স বাউন্ড (ইউসিবি)

থম্পসন স্যাম্পলিং

লিনইউসিবি

কনটেক্সট ফিচার্স

রিগ্রেট মিনিমাইজেশন

মাল্টি-আর্মড ব্যান্ডিটস

পুরস্কার ফাংশন

বাহু নির্বাচন

প্রত্যাশিত পুরস্কার

কর্ম-মূল্য ফাংশন

অনলাইন শিক্ষণ

স্টোকাস্টিক প্রাসঙ্গিক ব্যান্ডিট

নিউরাল ব্যান্ডিট

কোন ফলাফল পাওয়া যায়নি