ऑनलाइन ऑप्टिमाइज़ेशन
बैंडिट एल्गोरिदम
ऑनलाइन सीखने के एल्गोरिदम का एक परिवार जहां एजेंट को संचित लाभ को अधिकतम करने के लिए अनिश्चित पुरस्कारों के साथ क्रमिक रूप से कार्यों का चयन करना होता है।
← पीछे