एआई शब्दावली
आर्टिफिशियल इंटेलिजेंस का पूर्ण शब्दकोश
संदर्भित बैंडिट
एक प्रबलित सीखने एल्गोरिथ्म जो देखे गए संदर्भ के आधार पर गतिशील रूप से सर्वोत्तम क्रियाओं का चयन करता है ताकि संचित पुरस्कारों को अधिकतम किया जा सके।
अन्वेषण बनाम शोषण
एक मौलिक दुविधा जहां एल्गोरिथ्म को नए विकल्पों की खोज और उच्च प्रदर्शन के रूप में ज्ञात विकल्पों के शोषण के बीच संतुलन बनाना होता है।
उच्च आत्मविश्वास सीमा (UCB)
एक रणनीति जो अपेक्षित पुरस्कार पर आत्मविश्वास की उच्च सीमा के आधार पर भुजाओं का चयन करती है, जिससे अनिश्चित क्रियाओं के अन्वेषण को प्रोत्साहन मिलता है।
थॉम्पसन सैंपलिंग
एक बेयज़ियन एल्गोरिथ्म जो संभाव्य निर्णय लेने के लिए उत्तर-वितरण से पुरस्कार पैरामीटर का नमूना लेता है।
LinUCB
UCB का विस्तार जो अपेक्षित पुरस्कार को संदर्भ के एक रैखिक फलन के रूप में मॉडल करता है, जो उच्च-आयामी संदर्भ स्थानों के लिए अनुकूलित है।
संदर्भ विशेषताएं
वर्णनात्मक चर जो वर्तमान पर्यावरण की स्थिति की विशेषता बताते हैं और संदर्भित बैंडिट में क्रिया के इष्टतम चयन को प्रभावित करते हैं।
अनुशोचना कम करना
एक लक्ष्य जो प्राप्त संचित पुरस्कार और इष्टतम नीति के पुरस्कार के बीच अंतर को कम करने का लक्ष्य रखता है, जो एल्गोरिथ्म के प्रदर्शन को मापता है।
बहु-भुजा बैंडिट
एक मौलिक समस्या जहां एक एजेंट को अज्ञात पुरस्कार वितरण वाले कई विकल्पों (भुजाओं) में से चयन करके लाभ को अधिकतम करना होता है।
पुरस्कार फलन
किसी दिए गए संदर्भ में एक कार्रवाई करने के बाद प्राप्त तात्कालिक रिटर्न को मात्रात्मक रूप से मापने वाला गणितीय फलन, जो एल्गोरिदम के अधिगम का मार्गदर्शन करता है।
भुजा चयन
वर्तमान पुरस्कार अनुमानों और देखे गए संदर्भ के आधार पर उपलब्ध विकल्पों में से इष्टतम कार्रवाई चुनने की प्रक्रिया।
अपेक्षित पुरस्कार
एक विशिष्ट संदर्भ में किसी दिए गए कार्रवाई के लिए ऐतिहासिक अवलोकनों से गणना की गई पुरस्कार की अनुमानित औसत मूल्य।
क्रिया-मूल्य फलन
फलन Q(a,x) जो संदर्भ 'x' में कार्रवाई 'a' करने पर अपेक्षित भविष्य के पुरस्कार का अनुमान लगाता है, जो नीतियों के मूल्यांकन के लिए मौलिक है।
ऑनलाइन अधिगम
वह अधिगम पैराडाइम जहां मॉडल नए डेटा आते रहने पर लगातार समायोजित होता है, बिना पूर्ण पुनर्प्रशिक्षण की आवश्यकता के।
स्टोकास्टिक संदर्भात्मक बैंडिट
वह रूप जहां प्रत्येक संदर्भ-कार्रवाई युग्म के लिए पुरस्कार स्वतंत्र और समान रूप से वितरित स्टोकास्टिक वितरण का पालन करते हैं।
न्यूरल बैंडिट
वह दृष्टिकोण जो मूल्य फलन या नीति का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग करता है, जो जटिल गैर-रेखीय संबंधों को पकड़ने में सक्षम है।