বহু-বাহু ডাকাত - কৃত্রিম বুদ্ধিমত্তা শব্দাবলী

📖

শব্দ

মাল্টি-আর্মড ব্যান্ডিট

পুনর্বলন শিক্ষণের মৌলিক সমস্যা যেখানে একজন এজেন্টকে সর্বাধিক প্রাপ্ত পুরস্কারের যোগফল বাড়ানোর জন্য একাধিক বিকল্প (বাহু) থেকে ক্রমানুসারে নির্বাচন করতে হয়।

📖

শব্দ

অন্বেষণ-শোষণ দ্বিধা

সম্ভাব্য পুরস্কার আবিষ্কার করার জন্য নতুন বিকল্পগুলি অন্বেষণ এবং সবচেয়ে লাভজনক হিসাবে পরিচিত বিকল্পগুলি কাজে লাগানোর মধ্যে কেন্দ্রীয় দ্বন্দ্ব।

📖

শব্দ

রিগ্রেট রেট

প্রাপ্ত পুরস্কার এবং সর্বোত্তম পুরস্কারের মধ্যে ক্রমবর্ধমান পার্থক্য পরিমাপ করে, শিক্ষণ কৌশলের কার্যকারিতা মূল্যায়ন করে।

📖

শব্দ

ইউসিবি অ্যালগরিদম

একটি আশাবাদী কৌশল যা সর্বোচ্চ আত্মবিশ্বাসের উপরের সীমা সহ বাহু নির্বাচন করে, পরিসংখ্যানগত আত্মবিশ্বাসের ব্যবধান মাধ্যমে অন্বেষণ এবং শোষণের মধ্যে ভারসাম্য বজায় রাখে।

📖

শব্দ

ε-গ্রিডি অ্যালগরিদম

একটি সাধারণ নীতি যা (1-ε) সম্ভাবনা সহ সর্বোত্তম বাহু নির্বাচন করে এবং ε সম্ভাবনা সহ এলোমেলোভাবে অন্বেষণ করে, অন্বেষণ-শোষণ ট্রেড-অফ নিয়ন্ত্রণ করে।

📖

শব্দ

স্টোকাস্টিক রিওয়ার্ড

প্রতিটি বাহুর সাথে যুক্ত অজানা সম্ভাব্যতা বন্টন অনুসরণ করে এলোমেলো রিটার্ন, বাস্তব পরিবেশের অন্তর্নিহিত অনিশ্চয়তা মডেল করে।

📖

শব্দ

অ্যাকশন পলিসি

একটি নিয়ম বা অ্যালগরিদম যা জমে থাকা তথ্যের উপর ভিত্তি করে প্রতিটি ধাপে বাহুর পছন্দ নির্ধারণ করে, এজেন্টের আচরণ সংজ্ঞায়িত করে।

📖

শব্দ

বার্নোলি ডিস্ট্রিবিউশন

বাইনারি পুরস্কার মডেল (সাফল্য/ব্যর্থতা) যা প্রায়শই ব্যান্ডিট সমস্যাগুলিতে ব্যবহৃত হয়, সাফল্যের একক সম্ভাব্যতা প্যারামিটার দ্বারা চিহ্নিত।

📖

শব্দ

বেইজিয়ান আপডেট

পুরোনো তথ্য এবং নতুন পর্যবেক্ষণ একত্রিত করে পুরস্কার বন্টনের প্যারামিটার সম্পর্কে বিশ্বাস পুনর্বিবেচনার পুনরাবৃত্তিমূলক প্রক্রিয়া।

📖

শব্দ

অস্থির ব্যান্ডিট

একটি প্রকরণ যেখানে পুরস্কার বন্টন সময়ের সাথে পরিবর্তিত হয়, যা এই পরিবর্তনগুলি অনুসরণ করতে সক্ষম অভিযোজিত কৌশল প্রয়োজন।

📖

শব্দ

অনিশ্চয়তার মুখে আশাবাদ

একটি অ্যালগরিদমিক নীতি যা উচ্চ অনিশ্চয়তা এবং উচ্চ পুরস্কারের সম্ভাবনা সহ বাহুগুলিকে অগ্রাধিকার দেয়, কার্যকর অন্বেষণ নিশ্চিত করে।

📖

শব্দ

অভিসারী হার

যে গতিতে অ্যালগরিদম সর্বোত্তম নীতির কাছাকাছি পৌঁছায়, যা শিক্ষণ কৌশলের অ্যাসিম্পটোটিক দক্ষতা পরিমাপ করে।

📖

শব্দ

প্রতিদ্বন্দ্বিতামূলক ব্যান্ডিট

একটি পরিস্থিতি যেখানে পুরস্কারগুলি স্টোকাস্টিক বন্টন অনুসরণ করার পরিবর্তে একটি প্রতিপক্ষ দ্বারা নির্বাচিত হয়, যা শক্তিশালী কৌশল প্রয়োজন।

📖

শব্দ

আশাবাদী আরম্ভকরণ

একটি কৌশল যা সমস্ত উপলব্ধ বাহুর প্রাথমিক অন্বেষণ উত্সাহিত করার জন্য পুরস্কার অনুমানকে উচ্চ মান দিয়ে আরম্ভ করে।

📖

শব্দ

রৈখিক ব্যান্ডিট

একটি সাধারণীকরণ যেখানে প্রত্যাশিত পুরস্কার প্রাসঙ্গিক বৈশিষ্ট্যগুলির একটি রৈখিক ফাংশন, যা আরও জটিল কাঠামো অনুমোদন করে।

📖

শব্দ

ভ্যারিয়েন্স হ্রাস

একটি কৌশল যা সর্বোত্তম নীতির দিকে অভিসারী গতি বাড়ানোর জন্য পুরস্কার অনুমানের অনিশ্চয়তা হ্রাস করতে লক্ষ্য করে।

এআই গ্লসারি

মাল্টি-আর্মড ব্যান্ডিট

অন্বেষণ-শোষণ দ্বিধা

রিগ্রেট রেট

ইউসিবি অ্যালগরিদম

ε-গ্রিডি অ্যালগরিদম

স্টোকাস্টিক রিওয়ার্ড

অ্যাকশন পলিসি

বার্নোলি ডিস্ট্রিবিউশন

বেইজিয়ান আপডেট

অস্থির ব্যান্ডিট

অনিশ্চয়তার মুখে আশাবাদ

অভিসারী হার

প্রতিদ্বন্দ্বিতামূলক ব্যান্ডিট

আশাবাদী আরম্ভকরণ

রৈখিক ব্যান্ডিট

ভ্যারিয়েন্স হ্রাস

কোন ফলাফল পাওয়া যায়নি