এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
মাল্টি-আর্মড ব্যান্ডিট
পুনর্বলন শিক্ষণের মৌলিক সমস্যা যেখানে একজন এজেন্টকে সর্বাধিক প্রাপ্ত পুরস্কারের যোগফল বাড়ানোর জন্য একাধিক বিকল্প (বাহু) থেকে ক্রমানুসারে নির্বাচন করতে হয়।
অন্বেষণ-শোষণ দ্বিধা
সম্ভাব্য পুরস্কার আবিষ্কার করার জন্য নতুন বিকল্পগুলি অন্বেষণ এবং সবচেয়ে লাভজনক হিসাবে পরিচিত বিকল্পগুলি কাজে লাগানোর মধ্যে কেন্দ্রীয় দ্বন্দ্ব।
রিগ্রেট রেট
প্রাপ্ত পুরস্কার এবং সর্বোত্তম পুরস্কারের মধ্যে ক্রমবর্ধমান পার্থক্য পরিমাপ করে, শিক্ষণ কৌশলের কার্যকারিতা মূল্যায়ন করে।
ইউসিবি অ্যালগরিদম
একটি আশাবাদী কৌশল যা সর্বোচ্চ আত্মবিশ্বাসের উপরের সীমা সহ বাহু নির্বাচন করে, পরিসংখ্যানগত আত্মবিশ্বাসের ব্যবধান মাধ্যমে অন্বেষণ এবং শোষণের মধ্যে ভারসাম্য বজায় রাখে।
ε-গ্রিডি অ্যালগরিদম
একটি সাধারণ নীতি যা (1-ε) সম্ভাবনা সহ সর্বোত্তম বাহু নির্বাচন করে এবং ε সম্ভাবনা সহ এলোমেলোভাবে অন্বেষণ করে, অন্বেষণ-শোষণ ট্রেড-অফ নিয়ন্ত্রণ করে।
স্টোকাস্টিক রিওয়ার্ড
প্রতিটি বাহুর সাথে যুক্ত অজানা সম্ভাব্যতা বন্টন অনুসরণ করে এলোমেলো রিটার্ন, বাস্তব পরিবেশের অন্তর্নিহিত অনিশ্চয়তা মডেল করে।
অ্যাকশন পলিসি
একটি নিয়ম বা অ্যালগরিদম যা জমে থাকা তথ্যের উপর ভিত্তি করে প্রতিটি ধাপে বাহুর পছন্দ নির্ধারণ করে, এজেন্টের আচরণ সংজ্ঞায়িত করে।
বার্নোলি ডিস্ট্রিবিউশন
বাইনারি পুরস্কার মডেল (সাফল্য/ব্যর্থতা) যা প্রায়শই ব্যান্ডিট সমস্যাগুলিতে ব্যবহৃত হয়, সাফল্যের একক সম্ভাব্যতা প্যারামিটার দ্বারা চিহ্নিত।
বেইজিয়ান আপডেট
পুরোনো তথ্য এবং নতুন পর্যবেক্ষণ একত্রিত করে পুরস্কার বন্টনের প্যারামিটার সম্পর্কে বিশ্বাস পুনর্বিবেচনার পুনরাবৃত্তিমূলক প্রক্রিয়া।
অস্থির ব্যান্ডিট
একটি প্রকরণ যেখানে পুরস্কার বন্টন সময়ের সাথে পরিবর্তিত হয়, যা এই পরিবর্তনগুলি অনুসরণ করতে সক্ষম অভিযোজিত কৌশল প্রয়োজন।
অনিশ্চয়তার মুখে আশাবাদ
একটি অ্যালগরিদমিক নীতি যা উচ্চ অনিশ্চয়তা এবং উচ্চ পুরস্কারের সম্ভাবনা সহ বাহুগুলিকে অগ্রাধিকার দেয়, কার্যকর অন্বেষণ নিশ্চিত করে।
অভিসারী হার
যে গতিতে অ্যালগরিদম সর্বোত্তম নীতির কাছাকাছি পৌঁছায়, যা শিক্ষণ কৌশলের অ্যাসিম্পটোটিক দক্ষতা পরিমাপ করে।
প্রতিদ্বন্দ্বিতামূলক ব্যান্ডিট
একটি পরিস্থিতি যেখানে পুরস্কারগুলি স্টোকাস্টিক বন্টন অনুসরণ করার পরিবর্তে একটি প্রতিপক্ষ দ্বারা নির্বাচিত হয়, যা শক্তিশালী কৌশল প্রয়োজন।
আশাবাদী আরম্ভকরণ
একটি কৌশল যা সমস্ত উপলব্ধ বাহুর প্রাথমিক অন্বেষণ উত্সাহিত করার জন্য পুরস্কার অনুমানকে উচ্চ মান দিয়ে আরম্ভ করে।
রৈখিক ব্যান্ডিট
একটি সাধারণীকরণ যেখানে প্রত্যাশিত পুরস্কার প্রাসঙ্গিক বৈশিষ্ট্যগুলির একটি রৈখিক ফাংশন, যা আরও জটিল কাঠামো অনুমোদন করে।
ভ্যারিয়েন্স হ্রাস
একটি কৌশল যা সর্বোত্তম নীতির দিকে অভিসারী গতি বাড়ানোর জন্য পুরস্কার অনুমানের অনিশ্চয়তা হ্রাস করতে লক্ষ্য করে।