संदर्भगत बैंडिट्स - कृत्रिम बुद्धिमत्ता शब्दावली

📖

शब्द

संदर्भित बैंडिट

एक प्रबलित सीखने एल्गोरिथ्म जो देखे गए संदर्भ के आधार पर गतिशील रूप से सर्वोत्तम क्रियाओं का चयन करता है ताकि संचित पुरस्कारों को अधिकतम किया जा सके।

📖

शब्द

अन्वेषण बनाम शोषण

एक मौलिक दुविधा जहां एल्गोरिथ्म को नए विकल्पों की खोज और उच्च प्रदर्शन के रूप में ज्ञात विकल्पों के शोषण के बीच संतुलन बनाना होता है।

📖

शब्द

उच्च आत्मविश्वास सीमा (UCB)

एक रणनीति जो अपेक्षित पुरस्कार पर आत्मविश्वास की उच्च सीमा के आधार पर भुजाओं का चयन करती है, जिससे अनिश्चित क्रियाओं के अन्वेषण को प्रोत्साहन मिलता है।

📖

शब्द

थॉम्पसन सैंपलिंग

एक बेयज़ियन एल्गोरिथ्म जो संभाव्य निर्णय लेने के लिए उत्तर-वितरण से पुरस्कार पैरामीटर का नमूना लेता है।

📖

शब्द

LinUCB

UCB का विस्तार जो अपेक्षित पुरस्कार को संदर्भ के एक रैखिक फलन के रूप में मॉडल करता है, जो उच्च-आयामी संदर्भ स्थानों के लिए अनुकूलित है।

📖

शब्द

संदर्भ विशेषताएं

वर्णनात्मक चर जो वर्तमान पर्यावरण की स्थिति की विशेषता बताते हैं और संदर्भित बैंडिट में क्रिया के इष्टतम चयन को प्रभावित करते हैं।

📖

शब्द

अनुशोचना कम करना

एक लक्ष्य जो प्राप्त संचित पुरस्कार और इष्टतम नीति के पुरस्कार के बीच अंतर को कम करने का लक्ष्य रखता है, जो एल्गोरिथ्म के प्रदर्शन को मापता है।

📖

शब्द

बहु-भुजा बैंडिट

एक मौलिक समस्या जहां एक एजेंट को अज्ञात पुरस्कार वितरण वाले कई विकल्पों (भुजाओं) में से चयन करके लाभ को अधिकतम करना होता है।

📖

शब्द

पुरस्कार फलन

किसी दिए गए संदर्भ में एक कार्रवाई करने के बाद प्राप्त तात्कालिक रिटर्न को मात्रात्मक रूप से मापने वाला गणितीय फलन, जो एल्गोरिदम के अधिगम का मार्गदर्शन करता है।

📖

शब्द

भुजा चयन

वर्तमान पुरस्कार अनुमानों और देखे गए संदर्भ के आधार पर उपलब्ध विकल्पों में से इष्टतम कार्रवाई चुनने की प्रक्रिया।

📖

शब्द

अपेक्षित पुरस्कार

एक विशिष्ट संदर्भ में किसी दिए गए कार्रवाई के लिए ऐतिहासिक अवलोकनों से गणना की गई पुरस्कार की अनुमानित औसत मूल्य।

📖

शब्द

क्रिया-मूल्य फलन

फलन Q(a,x) जो संदर्भ 'x' में कार्रवाई 'a' करने पर अपेक्षित भविष्य के पुरस्कार का अनुमान लगाता है, जो नीतियों के मूल्यांकन के लिए मौलिक है।

📖

शब्द

ऑनलाइन अधिगम

वह अधिगम पैराडाइम जहां मॉडल नए डेटा आते रहने पर लगातार समायोजित होता है, बिना पूर्ण पुनर्प्रशिक्षण की आवश्यकता के।

📖

शब्द

स्टोकास्टिक संदर्भात्मक बैंडिट

वह रूप जहां प्रत्येक संदर्भ-कार्रवाई युग्म के लिए पुरस्कार स्वतंत्र और समान रूप से वितरित स्टोकास्टिक वितरण का पालन करते हैं।

📖

शब्द

न्यूरल बैंडिट

वह दृष्टिकोण जो मूल्य फलन या नीति का अनुमान लगाने के लिए तंत्रिका नेटवर्क का उपयोग करता है, जो जटिल गैर-रेखीय संबंधों को पकड़ने में सक्षम है।

एआई शब्दावली

संदर्भित बैंडिट

अन्वेषण बनाम शोषण

उच्च आत्मविश्वास सीमा (UCB)

थॉम्पसन सैंपलिंग

LinUCB

संदर्भ विशेषताएं

अनुशोचना कम करना

बहु-भुजा बैंडिट

पुरस्कार फलन

भुजा चयन

अपेक्षित पुरस्कार

क्रिया-मूल्य फलन

ऑनलाइन अधिगम

स्टोकास्टिक संदर्भात्मक बैंडिट

न्यूरल बैंडिट

कोई परिणाम नहीं मिला