এআই গ্লসারি
কৃত্রিম বুদ্ধিমত্তার সম্পূর্ণ অভিধান
ক্লাসিকাল মাল্টি-আর্মড ডাকাত
মৌলিক সমস্যা যেখানে এজেন্ট ক্রমবর্ধমান পুরস্কার সর্বাধিক করার জন্য একাধিক বিকল্পের মধ্যে থেকে বেছে নেয়।
এপসাইলন-গ্রিডি অ্যালগরিদম
একটি কৌশল যা 1-ε সম্ভাবনা সহ পরিচিত সেরা কর্মটি কাজে লাগায় এবং ε সম্ভাবনা সহ এলোমেলোভাবে অনুসন্ধান করে।
UCB অ্যালগরিদম
কনফিডেন্স আপার বাউন্ড-ভিত্তিক পদ্ধতি যা পরিসংখ্যানগত ব্যবধানগুলির মাধ্যমে অন্বেষণ ও ব্যবহারের মধ্যে ভারসাম্য বজায় রাখে।
Thompson Sampling
বেইজিয়ান পদ্ধতি যা সিদ্ধান্ত নেওয়ার জন্য প্যারামিটারগুলিকে তাদের পোস্টেরিয়র বন্টন অনুযায়ী নমুনা করে।
ব্যান্ডিটস কনটেক্সচুয়াল
একটি এক্সটেনশন যেখানে সিদ্ধান্তগুলি প্রতিটি রাউন্ডে পর্যবেক্ষণ করা কনটেক্সচুয়াল বৈশিষ্ট্যের উপর নির্ভর করে।
লিনিয়ার ব্যান্ডিটস
মডেল যেখানে প্রত্যাশিত পুরস্কার প্রসঙ্গগত বৈশিষ্ট্যগুলির একটি রৈখিক ফাংশন।
অস্থির ডাকাত
এমন একটি কাঠামো যেখানে পুরস্কারের বন্টন সময়ের সাথে পরিবর্তিত হয়, যা অবিরত অভিযোজন প্রয়োজন করে।
কম্বিনেটোরিয়াল ব্যান্ডিটস
সমস্যা যেখানে এজেন্ট কাঠামোগত সীমাবদ্ধতার সাথে একই সাথে কর্মের সেট নির্বাচন করে।
বিপক্ষ ডাকাত
একটি দৃশ্যকল্প যেখানে একজন বিপক্ষ এজেন্টের লাভ কমানোর জন্য পুরস্কার নির্বাচন করে।
ক্যাসকেড ব্যান্ডিটস
একটি মডেল যেখানে আইটেমগুলো ক্রমানুসারে উপস্থাপন করা হয় যতক্ষণ না ব্যবহারকারী তাদের মধ্যে একটি ক্লিক করে।
সীমিত প্রতিক্রিয়া সহ ডাকাত
যেসব পরিস্থিতিতে প্রতিটি ক্রিয়ার পরে পুরস্কারের শুধুমাত্র আংশিক তথ্য পর্যবেক্ষণ করা হয়।
অনলাইন বিজ্ঞাপনের জন্য ব্যান্ডিটস
রিয়েল-টাইম বিজ্ঞাপন প্রচারণা অপ্টিমাইজেশনের জন্য নির্দিষ্ট অ্যাপ্লিকেশন।
A/B পরীক্ষার জন্য ব্যান্ডিট
ওয়েব অভিজ্ঞতা অপ্টিমাইজেশনের জন্য ঐতিহ্যগত A/B পরীক্ষার একটি বুদ্ধিমান বিকল্প।
সুপারিশের জন্য ব্যান্ডিট
ব্যবহারকারীর পছন্দ শিখে সুপারিশ ব্যক্তিগতকরণের জন্য সিস্টেম।
হায়ারার্কিক্যাল ব্যান্ডিটস
মাল্টি-লেভেল স্ট্রাকচার যেখানে জটিল সমস্যার জন্য সিদ্ধান্তগুলি একটি শ্রেণীবিন্যাসে সংগঠিত হয়।