UCB অ্যালগরিদম
KL-UCB
অ্যাসিম্পটোটিকভাবে সর্বোত্তম আত্মবিশ্বাসের সীমা নির্মাণের জন্য কুলব্যাক-লেইব্লার ডাইভারজেন্স ব্যবহার করে UCB-এর বৈকল্পিক, সীমিত পুরস্কারের জন্য বিশেষভাবে উপযুক্ত।
← ফিরে যান