संदर्भगत बैंडिट्स
उच्च आत्मविश्वास सीमा (UCB)
एक रणनीति जो अपेक्षित पुरस्कार पर आत्मविश्वास की उच्च सीमा के आधार पर भुजाओं का चयन करती है, जिससे अनिश्चित क्रियाओं के अन्वेषण को प्रोत्साहन मिलता है।
← पीछे